摘要
在工作中,经常会看到或者用到池化技术,例如数据库连接池、线程池、内存池等等。这类池化技术在很多经典框架中都存在,并且是设计中的重要部分。
一 资源
1.1 什么是资源?
资源,百度上的解释是生产资料或生活资料的天然来源。在生活中可能这样描述没有问题,但似乎无法更准确地圈定,到底什么是资源,资源有什么特性。
个人理解,资源是能够提供一定能力的对象(或对象集合)。数据库连接池,资源是数据库连接(提供数据库连接能力);线程池,资源是线程(提供计算/业务处理能力);内存池,资源就是内存了(存储、共享...)。
1.2 资源特征
池化技术,目的是对资源进行管理。为什么资源需要管理?
1.2.1 资源的稀缺性
通常而言,资源提供能力,而资源本身不是无限的,由于各种限制,在数量、使用频率、次数、和使用方式上都需要遵循一定的规则。
1.2.2 成本和效率(安全与ROI)
使用资源,希望通过合理的组织和使用方式,获取最大的收益,这也是我们对连接池、线程池做各种参数调优的原因。即更好地利用资源,达到最佳效果。
1.3 生命周期
生命周期就是指一个对象的生老病死。
生命周期(Life Cycle)的概念应用很广泛(政治、经济、环境、技术、社会等诸多领域),其基本涵义可以通俗地理解为“从摇篮到坟墓”(Cradle-to-Grave)的整个过程。对于某个产品而言,就是从自然中来回到自然中去的全过程,也就是既包括制造产品所需要的原材料的采集、加工等生产过程,也包括产品贮存、运输等流通过程,还包括产品的使用过程以及产品报废或处置等废弃回到自然过程,这个过程构成了一个完整的产品的生命周期。
二 资源管理方式探索
现在知道了资源需要管理,那么应该怎样管理?关于这点,并不能直接给出一个完全的答案,因为资源的管理方式,是跟资源自身的特征和具体业务场景(使用方式)紧密相关的。我们先看一下数据库连接池,以及线程池的管理实现方式,了解一下一些常见的池化管理方式。
2.0 资源池设计模式
一种很著名的设计模式:资源池(resource pool)。该模式正是为了解决资源的频繁分配﹑释放所造成的问题。数据库连接池就是资源池模式的一个实现场景。数据库连接池的基本思想就是为数据库连接建立一个“缓冲池”。预先在缓冲池中放入一定数量的连接,当需要建立数据库连接时,只需从“缓冲池”中取出一个,使用完毕之后再放回去。我们可以通过设定连接池最大连接数来防止系统无尽的与数据库连接。更为重要的是我们可以通过连接池的管理机制监视数据库的连接的数量﹑使用情况,为系统开发﹑测试及性能调整提供依据。
2.1 数据库连接池
目前开源的线程池框架较多,常用的又c3p0和Apache commons-dbcp。项目地址:
c3p0 数据库连接池:http://sourceforge.net/projects/c3p0/
Apache commons-dbcp 连接池:http://commons.apache.org/proper/commons-dbcp/
连接池需要考虑问题:
2.1.1 并发问题
为了使连接管理服务具有最大的通用性,必须考虑多线程环境,即并发问题。这个问题相对比较好解决,因为java语言自身提供了对并发管理的支持,使用synchronized关键字即可确保线程是同步的。使用方法为直接在类方法前面加上synchronized关键字,如:
publicsynchronized connection getconnection()
2.1.2 多数据库与多用户
对于大型的企业级应用,常常需要同时连接不同的数据库(如连接oracle和sybase)。如何连接不同的数据库呢?我们采用的策略是:设计一个符合单例模式的连接池管理类,在连接池管理类的唯一实例被创建时读取一个资源文件,其中资源文件中存放着多个数据库的url地址等信息。根据资源文件提供的信息,创建多个连接池类的实例,每一个实例都是一个特定数据库的连接池。连接池管理类实例为每个连接池实例取一个名字,通过不同的名字来管理不同的连接池。
对于同一个数据库有多个用户使用不同的名称和密码访问的情况,也可以通过资源文件处理,即在资源文件中设置多个具有相同url地址,但具有不同用户名和密码的数据库连接信息。
2.1.3 事务处理
事务具有原子性,此时要求对数据库的操作符合“all-all-nothing”原则即对于一组sql语句要么全做,要么全不做。
在java语言中,connection类本身提供了对事务的支持,可以通过设置connection的autocommit属性为false 然后显式的调用commit或rollback方法来实现。但要高效的进行connection复用,就必须提供相应的事务支持机制。可采用每一个事务独占一个连接来实现,这种方法可以大大降低事务管理的复杂性。
2.1.4 连接池的分配与释放
连接池的分配与释放,对系统的性能有很大的影响。合理的分配与释放,可以提高连接的复用度,从而降低建立新连接的开销,同时还可以加快用户的访问速度。
对于连接的管理可使用空闲池。即把已经创建但尚未分配出去的连接按创建时间存放到一个空闲池中。每当用户请求一个连接时,系统首先检查空闲池内有没有空闲连接。如果有就把建立时间最长(通过容器的顺序存放实现)的那个连接分配给他(实际是先做连接是否有效的判断,如果可用就分配给用户,如不可用就把这个连接从空闲池删掉,重新检测空闲池是否还有连接);如果没有则检查当前所开连接池是否达到连接池所允许的最大连接数(maxconn)如果没有达到,就新建一个连接,如果已经达到,就等待一定的时间(timeout)。如果在等待的时间内有连接被释放出来就可以把这个连接分配给等待的用户,如果等待时间超过预定时间timeout 则返回空值(null)。系统对已经分配出去正在使用的连接只做计数,当使用完后再返还给空闲池。对于空闲连接的状态,可开辟专门的线程定时检测,这样会花费一定的系统开销,但可以保证较快的响应速度。也可采取不开辟专门线程,只是在分配前检测的方法。
2.1.5 连接池的配置与维护
连接池中到底应该放置多少连接,才能使系统的性能最佳?系统可采取设置最小连接数(minconn)和最大连接数(maxconn)来控制连接池中的连接。最小连接数是系统启动时连接池所创建的连接数。如果创建过多,则系统启动就慢,但创建后系统的响应速度会很快;如果创建过少,则系统启动的很快,响应起来却慢。这样,可以在开发时,设置较小的最小连接数,开发起来会快,而在系统实际使用时设置较大的,因为这样对访问客户来说速度会快些。最大连接数是连接池中允许连接的最大数目,具体设置多少,要看系统的访问量,可通过反复测试,找到最佳点。
如何确保连接池中的最小连接数呢?有动态和静态两种策略。动态即每隔一定时间就对连接池进行检测,如果发现连接数量小于最小连接数,则补充相应数量的新连接以保证连接池的正常运转。静态是发现空闲连接不够时再去检查。
2.2 线程池
2.2.1 线程的生命周期
线程的基础概念我们不再赘述,JDK介绍的很多文章中都有描述。线程的生命周期如下:
Java中提供了Executor,和我们常用的子类:ThreadPoolExecutor,创建线程池的方法:
public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, TimeUnit unit, BlockingQueue<Runnable> workQueue, ThreadFactory threadFactory, RejectedExecutionHandler handler)
线程池中的corePoolSize就是线程池中的核心线程数量,这几个核心线程,只是在没有用的时候,也不会被回收,maximumPoolSize就是线程池中可以容纳的最大线程的数量,而keepAliveTime,就是线程池中除了核心线程之外的其他的最长可以保留的时间,因为在线程池中,除了核心线程即使在无任务的情况下也不能被清除,其余的都是有存活时间的,意思就是非核心线程可以保留的最长的空闲时间,而util,就是计算这个时间的一个单位,workQueue,就是等待队列,任务可以储存在任务队列中等待被执行,执行的是FIFIO原则(先进先出)。threadFactory,就是创建线程的线程工厂,最后一个handler,是一种拒绝策略,在任务满了之后,拒绝执行某些任务。
2.2.2 线程池执行流程
任务进来时,首先执行判断,判断核心线程是否处于空闲状态,如果不是,核心线程就先就执行任务,如果核心线程已满,则判断任务队列是否有地方存放该任务,若果有,就将任务保存在任务队列中,等待执行,如果满了,在判断最大可容纳的线程数,如果没有超出这个数量,就开创非核心线程执行任务,如果超出了,就调用handler实现拒绝策略。
2.2.3 四种常见的线程池
2.2.3.1 CachedThreadPool
可缓存的线程池,该线程池中没有核心线程,非核心线程的数量为Integer.max_value,就是无限大,当有需要时创建线程来执行任务,没有需要时回收线程,适用于耗时少,任务量大的情况。
2.2.3.2 SecudleThreadPool
周期性执行任务的线程池,按照某种特定的计划执行线程中的任务,有核心线程,但也有非核心线程,非核心线程的大小也为无限大。适用于执行周期性的任务。
2.2.3.3 SingleThreadPool
只有一条线程来执行任务,适用于有顺序的任务的应用场景。
2.2.3.4 FixedThreadPool
定长的线程池,有核心线程,核心线程的即为最大的线程数量,没有非核心线程
三 业务场景
在我们的一个应用内,会由运营维护一批用于在应用内加人的运营号,在用户在投放页报名后,需要使用这些运营号去执行与用户建立好友关系和发送消息等后续的运营动作。并且,为了避免对用户造成骚扰,每个运营号执行动作的频率是有限制的,并且随着风控策略的不断丰富,导致有多种控制规则。
3.1 需求分析
首先,可以确定在这个场景中,可以提炼的基本信息如下:
资源:是上述的运营号;
提供的能力:加人能力、发送消息能力、....
使用及风控策略:
1)使用频次限制,每天最多使用5次,到达上限后需要等到第三个自然日才可以再次使用;
2)每使用一次后,需要等一小时后才可以再次使用;
事实上,真实场景中还有更多更复杂的规则,不过这里我们只先根据上述两个条件进行设计。
3.2 资源定义
运营号属性字段:
id
名称
编号
供应商
所属分组
入库事件
更新时间
以上是主要属性字段。可见这个场景的资源与连接池和线程池之间的联系和区别。新资源创建和销毁不算频繁,没有到达一定空闲时间后自动回收的控制,但也会有新资源入库和移除的动作,这与线程池的创建和销毁是类似的。
3.3 生命周期设计
运营号进入我们的资源池,需要做一些列的操作,入库只是其中的第一步。在提供应用使用之前,需要先做好初始化和分组动作,并把资源加入生命周期中。应用层都是从通过分组id字段,从生命周期中取分组id相同,且可用状态的运营号执行业务动作。
四 方案设计
4.1 流程分析
一个简单的生命周期流程示意如下:
4.2 核心问题
从上图中可以看出,我们的设计需要解决以下几个问题:
1、资源的持久化存储
2、可用资源池维护,其中包含分组概念
3、应用层使用时,是从资源池获取一个/多个可用资源,但有可能是多线程获取,而一个资源,同一时刻只可能被一个线程获取并执行操作;再下次被加入可用资源池之前,其他线程无法获取;
4、资源被使用一次后或当日到达使用次数上限后,需要根据具体策略,到达时间后才可以再次加入可用资源池、延迟加入资源池。
而这四个核心问题之中,1 持久化存储比较容易,任一关系数据库即可满足,资源的入库和移除都属于低频操作;3属于同步问题,简单的做法可以通过加锁同步来保证取资源的串行操作,并且在被获取后立即移除,以确保不会被两个线程同时获取;
2,4较为复杂,也更为重要。
4.3 一种设计实现思路
4.3.1 可用资源池实现
从流程图中可以看到,如果要求资源池内的资源是根据资源加入的顺序先进先出,那么就可以通过队列来实现。考虑到资源池 与 应用之间可能是跨进程调用,那么分布式存储工具是第一选择。redis中就提供了队列(list)数据结构,通过lpush把资源入池,lpop从资源池中取出,对资源池操作时加锁保证同步。
如果不要求有序取出,那么也可以使用zset数据结构。ZADD 和 ZREM执行加入和取出;而且zset提供了更丰富的命令集合,可以一次操作多个资源。
key设计,需要包含分组id,用于让应用获取属于自己的资源队列内的资源。可以通过业务前缀+下划线+分组id的方式组织key,避免过长的同时保证足以区分。
4.3.2 资源的延迟加回资源池
比较容易想到的也有两种方式:数据库+定时任务, 和 延时队列。
1)基于数据库+定时任务
对于从资源池中取出的资源,我们可以存储在数据库表中,这可以理解为一条待处理任务。同时,起一个定时任务队列,定时取扫描这个任务表,当发现到了可以加回资源池的时间时,就执行加回动作。
2)延时队列
也可以考虑引入消息队列。当资源被使用后,我们根据使用情况,计算得出需要推迟多久后加回资源池(这点与1相同),然后通过发送延迟消息到消息队列。这样当到达既定时间时,消费者就可以消费到这条延时消息,然后执行加回资源池动作。
优缺点分析:
方法1)是采用任务扫描加定时任务的方式。好处是不太容易出现资源遗漏的情况。再确认资源加回资源池成功之前,任务状态一直是待处理;
缺点:定时任务需要指定一个扫描的时间周期,而且通畅不宜过于频繁,因为每次调度都需要做一次表数据扫描;而且不太容易实现到秒级或者更灵活的时间周期控制。当然,可以考虑采用类似kafka时间轮的方案,但实现难度会增加不少。
方法2)依赖消息队列,那么我们就必须考虑消息丢失、消息积压的问题。如果对资源加回可用资源池的延迟时间并不是很敏感,那么影响还不大。但消息丢失的问题必须解决。这可以转化为消息队列防止消息丢失的问题,通过手动提交、事务控制等手段来确保不会出现消息丢失。
4.4 到此为止了吗?
当看到这个标题的时候,大家就肯定已经明白,问题并不会到此为止。上面的“方案”,只是做到了“实现”,具体来说,就是在一定的条件(理想条件,理想的远离现实)且不出现任何意外的情况下,这个“方案”才能达到我们预想的效果。但事实上,我们再次回顾那张示意图,仔细思考一下,就是明白还欠缺了哪些问题。
1、资源池支持分组,分组数会有多少?最多会增加到多大的数量级?一个资源池内最多会有多少个资源?会占用多少空间?当一个redis单点服务内分组key过多的时候,使用要考虑使用proxy+多实例,或redis-cluster的方案来支持?
2、使用条件中,除了每使用一次,就需要推迟一小时才能再加回生命周期外,还有一个每天5次使用次数上限的限制,那么怎样记录使用次数?
3、真实的应用场景中,除了常规的使用要求(时间间隔)外,还可能在使用时,资源接口返回的一些信息调整推迟加回资源池的时间,而这个时间可能与常规的时间间隔相冲突,策略的优先级怎么实现?怎么确保资源不会被提前加回资源池,导致放回的是一个实际上不可用的资源?
4、.....
五 总结
当我们真的想清楚了上述问题,并提供出一个覆盖了各环节的解决方案,并且能组成一个能够顺畅运行的系统时(至少是在脑中验证),才算是完成了方案设计。而这样的方案,才能真正的得以很好的落实,而不会上线后遇到问题采取做各种碎片化的修复逻辑,不停的不定堆叠,最终导致不可用、无法维护的系统。