MySQL 双主单写,主库偶尔出现大量延迟的原因(1)

简介: MySQL 双主单写,主库偶尔出现大量延迟的原因

水平有限有误请谅解


一、问题来源

这是来自我们线上数据库的一个问题。我们是双主单写,这里约定写入的库为主库,没有写入的库为从库。我们的falcon偶尔会进行报警如下(频率很低):

image.png

这是非常奇怪的,按理说我是单写的从库没有做任何操作(除了应用Event以外),主库哪来的延迟,并且延迟这么大。在我映像中有朋友问过这个问题,当时没有细细研究。

二、延迟计算的规则

我们还是要看看主从计算延迟的伪代码:

/*
     The pseudo code to compute Seconds_Behind_Master:
     if (SQL thread is running)
//如果SQL线程启动了
     {
       if (SQL thread processed all the available relay log)
//如果SQL线程已经应用完了所有的IO线程写入的Event
       {
         if (IO thread is running)
//如果IO线程启动了
            print 0;
//设置延迟为0
         else
            print NULL;
//否则为空值
       }
        else
          compute Seconds_Behind_Master;
//如果SQL线程没有应用完所有的IO线程写入的Event,那么需要计算延迟。
      }
      else
       print NULL;
//如果连SQL线程也没有启动则设置为空值
  */

计算延迟的公式为:

long time_diff= ((long)(time(0)

- mi->rli->last_master_timestamp)
- mi->clock_diff_with_master);
也就是:
服务器当前时间-Event header中的timestamp - 主从服务器时间差

出现延迟的必要条件:

  • 如果SQL线程没有应用完了所有的IO线程写入的Event,也就是Read_Master_Log_Pos和Exec_Master_Log_Pos存在一定的差值。判定标准为
(mi->get_master_log_pos() == mi->rli->get_group_master_log_pos()) &&
(!strcmp(mi->get_master_log_name(), mi->rli->get_group_master_log_name()))

抛开文件名,也就是通过 IO线程读取到主库binary log的位置 和 SQL线程应用到的主库binary log位置进行比较来进行 判断,只要他们出现差值就会进入延迟计算环节。

  • 服务器当前时间-Event header中的timestamp - 主从服务器时间差 这个公式必须出现差值。

好了接下来带着这两个产生延迟的必要条件来寻求原因。

关于更多延迟计算的细节参考:

https://www.jianshu.com/p/033f83314619

三、产生延迟的原因

1.主库:首先主库写到从库的Event,从库会写入到binlog(log_slave_updates 开启),并且从库的DUMP线程会发送给主库,但是主库的IO线程通过SERVER_ID进程判定,将Event进行过滤,不写入主库的relay log,同时会更新主库IO线程读取的位置(Read_Master_Log_Pos),并且更新忽略到的位置(rli->ign_master_log_name_end[0])。代码如下:

    if (!(s_id == ::server_id && !mi->rli->replicate_same_server_id) ||
(event_type != binary_log::FORMAT_DESCRIPTION_EVENT &&
event_type != binary_log::ROTATE_EVENT &&
event_type != binary_log::STOP_EVENT))
{
mi->set_master_log_pos(mi->get_master_log_pos() + inc_pos);//增加Read_Master_Log_Pos位点,为当前位置
memcpy(rli->ign_master_log_name_end, mi->get_master_log_name(), FN_REFLEN); //进行拷贝
DBUG_ASSERT(rli->ign_master_log_name_end[0]); //断言存在
rli->ign_master_log_pos_end= mi->get_master_log_pos(); //忽略到位点
}
  1. 主库:SQL线程会通过rli->ign_master_log_name_end[0]判定是否有需要跳过的Event,如果有则构建一个Rotate_log_event来跳过这个Event,代码如下:
if (rli->ign_master_log_name_end[0]) //如果跳过的Event存在
{
/ We generate and return a Rotate, to make our positions advance /
DBUG_PRINT("info",("seeing an ignored end segment"));
ev= new Rotate_log_event(rli->ign_master_log_name_end,
0, rli->ign_master_log_pos_end, exec_relay_log_event
Rotate_log_event::DUP_NAME); //构建一个Rotate Event,位置为
rli->ign_master_log_name_end[0]= 0; //rli->ign_master_log_pos_end,执行这个Event就可以
mysql_mutex_unlock(log_lock);exec_relay_log_event //来更新Exec_Master_Log_Pos位点
if (unlikely(!ev))
{
errmsg= "Slave SQL thread failed to create a Rotate event "
"(out of memory?), SHOW SLAVE STATUS may be inaccurate";
goto err;
}
ev->server_id= 0; // don't be ignored by slave SQL thread
DBUG_RETURN(ev);
}

好了到这里我们知道了Event在主库是如何跳过的,但是注意IO线程和SQL线程在处理Read_Master_Log_Pos和Exec_Master_Log_Pos的时候可能有一定的时间差,那么Read_Master_Log_Pos和Exec_Master_Log_Pos存在一定的差值 的条件就可能会满足,则进入延迟计算环节。

  1. 主库的SQL线程平时并没有读取到Event,因为所有的Event都被IO线程过滤掉了。因此
    Event的 header中的timestamp 不会更新(MTS)。但是如果从库binlog切换的时候,从库至少会传送ROTATE_EVENT给主库,这个时候主库会拿到这个实际的Event,因此Event的 header中的timestamp 更新了。如果刚好遇到主库的IO线程的Read_Master_Log_Pos和Exec_Master_Log_Pos有差值,
    那么falcon去查看延迟就会得到一个延迟很大的假象,延迟的计算公式就会变为如下:
  • 主库当前的时候 - 从库上次binlog切换的时间 - 主从时间的差值
  1. MTS和单线程的不同

上面的第3点只适用于MTS,单SQL线程不同,会去将last_master_timestamp设置为0,代码如下:

        if (!rli->is_parallel_exec())
rli->last_master_timestamp= 0;

言外之意单SQL线程计算延迟的公式为:

  • 主库当前的时间 - 1970年1月1日0点 - 主从时间的差值

因此看起来计算出来的延迟会更大。

  1. 最后需要注意的是实际上这种情况的延迟并没有问题,完全是一种偶尔出现的计算上的问题,是一种假象,如果主库的压力越大出现这种情况的可能性就会越大,因为IO线程和SQL线程在处理Read_Master_Log_Pos和Exec_Master_Log_Pos的出现时间差的可能性就会越大。
            </div>
相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
相关文章
|
小程序 前端开发 API
微信小程序全栈开发中的异常处理与日志记录
【4月更文挑战第12天】本文探讨了微信小程序全栈开发中的异常处理和日志记录,强调其对确保应用稳定性和用户体验的重要性。异常处理涵盖前端(网络、页面跳转、用户输入、逻辑异常)和后端(数据库、API、业务逻辑)方面;日志记录则关注关键操作和异常情况的追踪。实践中,前端可利用try-catch处理异常,后端借助日志框架记录异常,同时采用集中式日志管理工具提升分析效率。开发者应注意安全性、性能和团队协作,以优化异常处理与日志记录流程。
505 0
|
5月前
|
JavaScript 前端开发
forEach与map的区别
forEach与map的区别
320 0
|
缓存 编解码 安全
探索Android 12的新特性与优化技巧
【6月更文挑战第7天】本文将深入探讨Android 12带来的创新功能和改进,包括用户界面的更新、隐私保护的加强以及性能的提升。同时,我们还将分享一些实用的优化技巧,帮助用户更好地利用这些新特性,提升手机的使用体验。
DHL
|
算法 安全 Java
再见吧 buildSrc, 拥抱 Composing builds 提升 Android 编译速度
长期以来困扰我们的一个问题就是构建速度,AndroidStudio 的构建速度严重影响 Android 开发者的工作效率,尤其是更新一个版本号,导致整个项目重新构建,在网络慢的情况下,这是无法忍受的。
DHL
1135 0
再见吧 buildSrc, 拥抱 Composing builds 提升 Android 编译速度
|
人工智能
Google Earth Engine(GEE)——全球1公里的云量MODIS图像数据集
Google Earth Engine(GEE)——全球1公里的云量MODIS图像数据集
355 0
Google Earth Engine(GEE)——全球1公里的云量MODIS图像数据集
|
关系型数据库 MySQL 数据安全/隐私保护
Navicat连接mysql出现1045错误
Navicat连接mysql出现1045错误使用Navicat连接mysql出现1045,可能的原因为忘记密码,下面方法可以帮助重置密码。 1,以管理员权限运行cmd程序; 2,cd C:Program Files (x86)MySQLMySQL Server 5.
7863 0
|
缓存 JavaScript 网络架构
Vue.js 进阶技巧:keep-alive 缓存组件解析
Vue.js 进阶技巧:keep-alive 缓存组件解析
|
缓存 前端开发 JavaScript
|
SQL 架构师 大数据
提升企业级数据处理效率!3.0 系列版本的四个集群优化点详解
为了帮助企业更好地进行大数据处理,我们在此前 TDengine 3.x 系列版本中进行了几项与集群相关的优化和新功能开发,本文将对这几项重要优化进行详细阐述。
267 0
|
存储 JavaScript 前端开发
详解——JS map()方法
详解——JS map()方法
608 0