亿级大表分库分表实战总结(万字干货,实战复盘)(二)

简介: 亿级大表分库分表实战总结(万字干货,实战复盘)(二)

4.第三阶段:改造和上线(慎重)


前两个阶段完成后,开始业务切换流程,主要步骤如下:


1)中台服务采用单读 双写 的模式


2)旧表往新表开着数据同步


3) 所有服务升级依赖的projectDB版本,上线RPC,如果出现问题,降版本即可回滚(上线成功后,单读新库,双写新旧库)


4)检查监控确保没有 中台服务 以外的其他服务访问旧库旧表


5)停止数据同步


6)删除旧表


4.1 查询改造


如何验证我们前两个阶段设计是否合理?能否完全覆盖查询的修改 是一个前提条件。


当新表设计完毕后,就可以以新表为标准,修改老的查询。


以本项目为例,需要将旧的sql在 新的中台服务中 进行改造。


1)读查询的改造


可能查询会涉及以下几个方面:


a)根据查询条件,需要将pk1和pk2的inner join改为对应分表键的新表表名


b)部分sql的废弃字段处理


c)非分表键查询改为走搜索平台的查询,注意保证语义一致


d)注意写单测避免低级错误,主要是DAO层面。


只有新表结构和存储架构能完全适应查询改造,才能认为前面的设计暂时没有问题。


当然,这里还有个前提条件,就是相关查询已经全部收拢,没有遗漏。


2) 写查询的改造


除了相关字段的更改以外,更重要的是,需要改造为旧表、新表的双写模式。


这里可能涉及到具体业务写入逻辑,本项目尤为复杂,需要改造过程中与业务方充分沟通,保证写入逻辑正确。


可以在双写上各加一个配置开关,方便切换。如果双写中发现新库写入有问题,可以快速关闭。


同时,双写过程中不关闭 旧库到新库 的数据同步。


为什么呢?主要还是由于我们项目的特殊性。由于我们涉及到几十个服务,为了降低风险,必须分批上线。因此,存在比较麻烦的中间态,一部分服务是老逻辑,一部分服务是新逻辑,必须保证中间态的数据正确性,具体见4.5.1的分析。


4.2 服务化改造


为什么需要新建一个 服务来 承载改造后的查询呢?


一方面是为了改造能够方便的升级与回滚切换,另一方面是为了将查询收拢,作为一个中台化的服务来提供相应的查询能力。


将改造后的新的查询放在服务中,然后jar包中的原本查询,全部替换成这个服务的client调用。


同时,升级jar包版本到3.0.0-SNAPSHOT。


4.3 服务分批上线


为了降低风险,需要安排从非核心服务到核心服务的分批上线。


注意,分批上线过程中,由于写服务往往是核心服务,所以安排在后面。可能出现非核心的读服务上线了,这时候会有读新表、写旧表的中间状态。


1) 所有相关服务使用 重构分支 升级projectdb版本到3.0.0-SNAPSHOT并部署内网环

境;


2) 业务服务依赖于 中台服务,需要订阅服务


3) 开重构分支(不要与正常迭代分支合并),部署内网,内网预计测试两周以上

使用一个新的 重构分支 是为了在内网测试两周的时候,不影响业务正常迭代。每周更新的业务分支可以merge到重构分支上部署内网,然后外网使用业务分支merge到master上部署。


当然,如果从线上线下代码分支一致的角度,也可以重构分支和业务分支一起测试上线,对开发和测试的压力会较大。


4)分批上线过程中,如果碰到依赖冲突的问题,需要及时解决并及时更新到该文档中


5)服务上线前,必须要求业务开发或者测试,明确评估具体api和风险点,做好回归。


这里再次提醒,上线完成后,请不要漏掉离线的数据分析业务!请不要漏掉离线的数据分析业务!请不要漏掉离线的数据分析业务!


4.4 旧表下线流程


1)检查监控确保没有中台服务以外的其他服务访问旧库旧表


2)检查数据库上的sql审计,确保没有其他服务仍然读取旧表数据


3)停止数据同步


4)删除旧表


4.5 最佳实践


4.5.1 写完立即读可能读不到


在分批上线过程中,遇到了写完立即读可能读不到的情况。由于业务众多,我们采用了分批上线的方式降低风险,存在一部分应用已经升级,一部分应用尚未升级的情况。未升级的服务仍然往旧表写数据,而升级后的应用会从新表读数据,当延迟存在时,很多新写入的记录无法读到,对具体业务场景造成了比较严重的影响。


延迟的原因主要有两个


1)写服务还没有升级,还没有开始双写,还是写旧表,这时候会有读新表、写旧表的中间状态,新旧表存在同步延迟。


2)为了避免主库压力,新表数据是从旧表获取变更、然后反查旧表只读实例的数据进行同步的,主从库本身存在一定延迟。


解决方案一般有两种


1)数据同步改为双写逻辑。


2)在读接口做补偿,如果新表查不到,到旧表再查一次。


4.5.2 数据库中间件唯一ID替换自增主键(划重点,敲黑板)


由于分表后,继续使用单表的自增主键,会导致全局主键冲突。因此,需要使用分布式唯一ID来代替自增主键。各种算法网上比较多,本项目采用的是数据库自增sequence生成方式。


数据库自增sequence的分布式ID生成器,是一个依赖Mysql的存在, 它的基本原理是在Mysql中存入一个数值, 每有一台机器去获取ID的时候,都会在当前ID上累加一定的数量比如说2000, 然后把当前的值加上2000返回给服务器。这样每一台机器都可以继续重复此操作获得唯一id区间。


但是仅仅有全局唯一ID就大功告成了吗?显然不是,因为这里还会存在新旧表的id冲突问题。


因为服务比较多,为了降低风险需要分批上线。因此,存在一部分服务还是单写旧表的逻辑,一部分服务是双写的逻辑。


这样的状态中,旧表的id策略使用的是auto_increment。如果只有单向数据来往的话(旧表到新表),只需要给旧表的id预留一个区间段,sequence从一个较大的起始值开始就能避免冲突。


但该项目中,还有新表数据和旧表数据的双写,如果采用上述方案,较大的id写入到旧表,旧表的auto_increment将会被重置到该值,这样单旧表的服务产生的递增id的记录必然会出现冲突。


所以这里交换了双方的区间段,旧库从较大的auto_increment起始值开始,新表选择的id(也就是sequence的范围)从大于旧表的最大记录的id开始递增,小于旧表auto_increment即将设置的起始值,很好的避免了id冲突问题。


1)切换前:


sequence的起始id设置为当前旧表的自增id大小,然后旧表的自增id需要改大,预留一段区间,给旧表的自增id继续使用,防止未升级业务写入旧表的数据同步到新库后产生id冲突;


2)切换后


无需任何改造,断开数据同步即可


3)优点


只用一份代码;


切换可以使用开关进行,不用升级改造;


如果万一中途旧表的autoincrement被异常数据变大了,也不会造成什么问题。


4)缺点


如果旧表写失败了,新表写成功了,需要日志辅助处理


4.6 本章小结


完成旧表下线后,整个分库分表的改造就完成了。


在这个过程中,需要始终保持对线上业务的敬畏,仔细思考每个可能发生的问题,想好快速回滚方案(在三个阶段提到了projectdb的jar包版本迭代,从1.0.0-SNAPSHOT到3.0.0-SNAPSHOT,包含了每个阶段不同的变更,在不同阶段的分批上线的过程中,通过jar包版本的方式进行回滚,发挥了巨大作用),避免造成重大故障。


5.稳定性保障


这一章主要再次强调稳定性的保障手段。作为本次项目的重要目标之一,稳定性其实贯穿在整个项目周期内,基本上在上文各个环节都已经都有提到,每一个环节都要引起足够的重视,仔细设计和评估方案,做到心中有数,而不是靠天吃饭:


1)新表设计必须跟业务方充分沟通、保证review。


2)对于“数据同步”,必须有数据校验保障数据正确性,可能导致数据不正确的原因上文已经提到来很多,包括实时性、一致性的问题。保证数据正确是上线的大前提


3)每一阶段的变动,都必须做好快速回滚都预案。


4)上线过程,都以分批上线的形式,从非核心业务开始做试点,避免故障扩大。


5)监控告警要配置全面,出现问题及时收到告警,快速响应。不要忽略,很重要,有几次出现过数据的问题,都是通过告警及时发现和解决的。6)单测,业务功能测试等要充分


6.项目管理之跨团队协作


关于“跨团队协作”,本文专门拎出来作为一章。


因为在这样一个跨团队的大型项目改造过程中,科学的团队协作是保障整体项目按时、高质量完成的不可缺少的因素。


下面,分享几点心得与体会。


6.1 一切文档先行


团队协作最忌“空口无凭”。


无论是团队分工、进度安排或是任何需要多人协作的事情,都需要有一个文档记录,用于追踪进度,把控流程。


6.2 业务沟通与确认


所有的表结构改造,必须跟相关业务方沟通,对于可能存在的历史逻辑,进行全面梳理;


所有讨论确定后的字段改造,必须由每个服务的Owner进行确认。


6.3 责任到位


对于多团队多人次的合作项目,每个团队都应该明确一个对接人,由项目总负责人与团队唯一对接人沟通,明确团队完整进度和完成质量。


7.展望


其实,从全文的篇幅就能够看出,本次的分库分表项目由于复杂的业务逻辑改造,费大量的时间和精力,并且非常容易在改造过程中,引起不稳定的线上问题。


本文复盘了整个分库分表从拆分、设计、上线的整体过程,希望能对大家有所帮助。


看到这里,我们会想问一句。所以,有没有更好的方式呢?


也许,未来还是需要去结合业界新的数据库中间件技术,能够快速实现分库分表。


也许,未来还可以引入新的数据存储技术与方案(polardb、tidb、hbase),根本不再需要分库分表呢?


继续跟进新技术的发展,我相信会找到答案。

目录
相关文章
|
24天前
|
SQL 关系型数据库 MySQL
阿里面试:1000万级大表, 如何 加索引?
45岁老架构师尼恩在其读者交流群中分享了如何在生产环境中给大表加索引的方法。文章详细介绍了两种索引构建方式:在线模式(Online DDL)和离线模式(Offline DDL),并深入探讨了 MySQL 5.6.7 之前的“影子策略”和 pt-online-schema-change 方案,以及 MySQL 5.6.7 之后的内部 Online DDL 特性。通过这些方法,可以有效地减少 DDL 操作对业务的影响,确保数据的一致性和完整性。尼恩还提供了大量面试题和解决方案,帮助读者在面试中充分展示技术实力。
|
24天前
|
SQL 存储 Oracle
大厂面试高频:聊下分库分表与读写分离的实现原理
本文详解了分库分表和读写分离的原理与实现,帮助解决大数据量下的性能瓶颈问题,大厂面试高频,建议收藏。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
大厂面试高频:聊下分库分表与读写分离的实现原理
|
7月前
|
缓存 关系型数据库 MySQL
史上最全MySQL 大表优化方案(长文)
史上最全MySQL 大表优化方案(长文)
1575 0
|
SQL 关系型数据库 MySQL
106分布式电商项目 - MySQL优化(查询优化)
106分布式电商项目 - MySQL优化(查询优化)
75 0
|
消息中间件 存储 中间件
【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分析(中)
【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分析(中)
160 0
【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分析(中)
|
SQL 关系型数据库
【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分析(上)
【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分析(上)
207 0
【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分析(上)
|
存储 算法 数据库
一次难得的分库分表实践(上)
一次难得的分库分表实践
|
存储 SQL 搜索推荐
亿级大表分库分表实战总结(万字干货,实战复盘)(一)
亿级大表分库分表实战总结(万字干货,实战复盘)(一)
363 0
亿级大表分库分表实战总结(万字干货,实战复盘)(一)
|
消息中间件 运维 监控
200张表,单表记录过亿,10多年核心老系统的重构之旅
200张表,单表记录过亿,10多年核心老系统的重构之旅
472 0
200张表,单表记录过亿,10多年核心老系统的重构之旅
|
SQL 调度 数据库
也谈分库分表在实际应用的实践(下)
也谈分库分表在实际应用的实践(下)
230 0
也谈分库分表在实际应用的实践(下)