线上使用的dbcp版本1.3,数据库为达梦7。
在生产环境下发现,dbcp所连接的库一旦因为其它原因挂掉,再次重启数据库后会话将直接撑爆数据库,接着导致数据库再次挂掉。
如图中所示,会话撑满100个(上限默认的为100),连接全部是IDLE。
在参考issue DBCP-470后经本地测试发现问题重现。
问题主要原因是当所连接的数据库停机后,此时通过程序创建BasicDataSource对象来访问数据库时validateConnectionFactory方法抛异常导致datasource成员变量一直为空。
主要问题在于createDataSource()方法。
通过dataSource !=null来防止重复创建数据源
创建连接池
问题在于createPoolableConnectionFactory方法里会调用validateConnectionFactory方法来校验目的库是否可连接。如果不可连接将抛出异常,这将导致createDataSourceInstance()不会走,也就不会实例化dataSource变量。
连接泄露 上面由于在异常时没有实例化dataSource变量,当重复调用createDataSource()方法时,将导致createConnectionPool()方法会重复调用。
GC无法回收 在createConnectionPool()方法中,调用GenericObjectPool的setTimeBetweenEvictionRunsMillis()方法时会开启一个Timer。这将导致GenericObjectPool对象由于被Timer对象引用而一直无法被回收掉。
jmap生成dump文件分析 线上数据库确实如图中所示有那么多连接数被占用。在dbcp-470问题中提到解决版本为1.4.1
但是官网并没有release 1.4.1版本。
随便通过在GIT上找到commons-dbcp源码,在其1.4版本的分支中发现问题已经解决。
此处已经try-catch了,并有在finally块中关闭了上面创建的连接池。
此时下载该版本的源代码编译打包后,再经测试发现问题已经解决了。
编译后的jar包下载地址