[MySQL优化案例]系列 — slave延迟很大优化方法-阿里云开发者社区

[MySQL优化案例]系列 — slave延迟很大优化方法

2022-07-26 145

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL DuckDB 分析主实例，集群系列 4核8GB

简介： [MySQL优化案例]系列 — slave延迟很大优化方法

备注：插图来自网络搜索，如果觉得不当还请及时告知：）

一般而言，slave相对master延迟较大，其根本原因就是slave上的复制线程没办法真正做到并发。简单说，在master上是并发模式（以InnoDB引擎为主）完成事务提交的，而在slave上，复制线程只有一个sql thread用于binlog的apply，所以难怪slave在高并发时会远落后master。

ORACLE MySQL 5.6版本开始支持多线程复制，配置选项 slave_parallel_workers 即可实现在slave上多线程并发复制。不过，它只能支持一个实例下多个 database 间的并发复制，并不能真正做到多表并发复制。因此在较大并发负载时，slave还是没有办法及时追上master，需要想办法进行优化。

另一个重要原因是，传统的MySQL复制是异步（asynchronous）的，也就是说在master提交完后，才在slave上再应用一遍，并不是真正意义上的同步。哪怕是后来的Semi-sync Repication（半同步复制），也不是真同步，因为它只保证事务传送到slave，但没要求等到确认事务提交成功。既然是异步，那肯定多少会有延迟。因此，严格意义上讲，MySQL复制不能叫做MySQL同步（处女座的面试官有可能会在面试时把说成MySQL同步的一律刷掉哦）。

另外，不少人的观念里，slave相对没那么重要，因此就不会提供和master相同配置级别的服务器。有的甚至不但使用更差的服务器，而且还在上面跑多实例。

综合这两个主要原因，slave想要尽可能及时跟上master的进度，可以尝试采用以下几种方法：

采用MariaDB发行版，它实现了相对真正意义上的并行复制，其效果远比ORACLE MySQL好的很多。在我的场景中，采用MariaDB作为slave的实例，几乎总是能及时跟上master。如果不想用这个版本的话，那就老实等待官方5.7大版本发布吧；
关于MariaDB的Parallel Replication具体请参考：Replication and Binary Log Server System Variables#slave_parallel_threads - MariaDB Knowledge Base

每个表都要显式指定主键，如果没有指定主键的话，会导致在row模式下，每次修改都要全表扫描，尤其是大表就非常可怕了，延迟会更严重，甚至导致整个slave库都被挂起，可参考案例：mysql主键的缺少导致备库hang；

应用程序端多做些事，让MySQL端少做事，尤其是和IO相关的活动，例如：前端通过内存CACHE或者本地写队列等，合并多次读写为一次，甚至消除一些写请求；

进行合适的分库、分表策略，减小单库单表复制压力，避免由于单库单表的的压力导致整个实例的复制延迟；

其他提高IOPS性能的几种方法，根据效果优劣，我做了个简单排序：

更换成SSD，或者PCIe SSD等IO设备，其IOPS能力的提升是普通15K SAS盘的数以百倍、万倍，甚至几十万倍计；

加大物理内存，相应提高InnoDB Buffer Pool大小，让更多热数据放在内存中，降低发生物理IO的频率；

调整文件系统为 XFS 或 ReiserFS，相比ext3可以极大程度提高IOPS能力。在高IOPS压力下，相比ext4有更稳健的IOPS表现（有人认为 XFS 在特别的场景下会有很大的问题，但我们除了剩余磁盘空间少于10%时引发丢数据外，其他的尚未遇到）；

调整RAID级别为raid 1+0，它相比raid1、raid5等更能提高IOPS性能。如果已经全部是SSD设备了，可以2块盘做成RAID 1，或者多快盘做成RAID 5（并且可以设置全局热备盘，提高阵列容错性），甚至有些土豪用户直接将多块SSD盘组成RAID 50；

调整RAID的写cache策略为WB或FORCE WB，详情请参考：常用PC服务器阵列卡、硬盘健康监控以及 PC服务器阵列卡管理简易手册；

调整内核的io scheduler，优先使用deadline，如果是SSD，则可以使用noop策略，相比默认的cfq，个别情况下对IOPS的性能提升至少是数倍的。

其他更多方法，欢迎大家帮忙补充：）

            </div>

[MySQL优化案例]系列 — slave延迟很大优化方法

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

[MySQL优化案例]系列 — slave延迟很大优化方法

热门文章

最新文章

相关课程

相关电子书

推荐镜像