MySQL 双主单写，主库偶尔出现大量延迟的原因(1)-阿里云开发者社区

MySQL 双主单写，主库偶尔出现大量延迟的原因(1)

2022-09-15 184

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MySQL 双主单写，主库偶尔出现大量延迟的原因

水平有限有误请谅解

一、问题来源

这是来自我们线上数据库的一个问题。我们是双主单写，这里约定写入的库为主库，没有写入的库为从库。我们的falcon偶尔会进行报警如下（频率很低）：

这是非常奇怪的，按理说我是单写的从库没有做任何操作（除了应用Event以外），主库哪来的延迟，并且延迟这么大。在我映像中有朋友问过这个问题，当时没有细细研究。

二、延迟计算的规则

我们还是要看看主从计算延迟的伪代码：

/*
     The pseudo code to compute Seconds_Behind_Master:
     if (SQL thread is running)
//如果SQL线程启动了
     {
       if (SQL thread processed all the available relay log)
//如果SQL线程已经应用完了所有的IO线程写入的Event
       {
         if (IO thread is running)
//如果IO线程启动了
            print 0;
//设置延迟为0
         else
            print NULL;
//否则为空值
       }
        else
          compute Seconds_Behind_Master;
//如果SQL线程没有应用完所有的IO线程写入的Event，那么需要计算延迟。
      }
      else
       print NULL;
//如果连SQL线程也没有启动则设置为空值
  */

计算延迟的公式为：

long time_diff= ((long)(time(0)

- mi->rli->last_master_timestamp)
- mi->clock_diff_with_master);
也就是：
服务器当前时间-Event header中的timestamp - 主从服务器时间差

出现延迟的必要条件：

如果SQL线程没有应用完了所有的IO线程写入的Event，也就是Read_Master_Log_Pos和Exec_Master_Log_Pos存在一定的差值。判定标准为

(mi->get_master_log_pos() == mi->rli->get_group_master_log_pos()) &&
        (!strcmp(mi->get_master_log_name(), mi->rli->get_group_master_log_name()))

抛开文件名，也就是通过 IO线程读取到主库binary log的位置和 SQL线程应用到的主库binary log位置进行比较来进行判断，只要他们出现差值就会进入延迟计算环节。

服务器当前时间-Event header中的timestamp - 主从服务器时间差这个公式必须出现差值。

好了接下来带着这两个产生延迟的必要条件来寻求原因。

关于更多延迟计算的细节参考：

https://www.jianshu.com/p/033f83314619

三、产生延迟的原因

1.主库：首先主库写到从库的Event，从库会写入到binlog（log_slave_updates 开启），并且从库的DUMP线程会发送给主库，但是主库的IO线程通过SERVER_ID进程判定，将Event进行过滤，不写入主库的relay log，同时会更新主库IO线程读取的位置（Read_Master_Log_Pos），并且更新忽略到的位置（rli->ign_master_log_name_end[0]）。代码如下：

    if (!(s_id == ::server_id && !mi->rli->replicate_same_server_id) ||
        (event_type != binary_log::FORMAT_DESCRIPTION_EVENT &&
         event_type != binary_log::ROTATE_EVENT &&
         event_type != binary_log::STOP_EVENT))
    {
      mi->set_master_log_pos(mi->get_master_log_pos() + inc_pos);//增加Read_Master_Log_Pos位点，为当前位置
      memcpy(rli->ign_master_log_name_end, mi->get_master_log_name(), FN_REFLEN); //进行拷贝
      DBUG_ASSERT(rli->ign_master_log_name_end[0]); //断言存在
      rli->ign_master_log_pos_end= mi->get_master_log_pos(); //忽略到位点
    }

主库：SQL线程会通过rli->ign_master_log_name_end[0]判定是否有需要跳过的Event，如果有则构建一个Rotate_log_event来跳过这个Event，代码如下：

if (rli->ign_master_log_name_end[0]) //如果跳过的Event存在
        {
          / We generate and return a Rotate, to make our positions advance /
          DBUG_PRINT("info",("seeing an ignored end segment"));
          ev= new Rotate_log_event(rli->ign_master_log_name_end,
                                   0, rli->ign_master_log_pos_end, exec_relay_log_event
                                   Rotate_log_event::DUP_NAME); //构建一个Rotate Event，位置为
          rli->ign_master_log_name_end[0]= 0;                   //rli->ign_master_log_pos_end，执行这个Event就可以
          mysql_mutex_unlock(log_lock);exec_relay_log_event     //来更新Exec_Master_Log_Pos位点
          if (unlikely(!ev))
          {
            errmsg= "Slave SQL thread failed to create a Rotate event "
              "(out of memory?), SHOW SLAVE STATUS may be inaccurate";
            goto err;
          }
          ev->server_id= 0; // don't be ignored by slave SQL thread
          DBUG_RETURN(ev);
        }

好了到这里我们知道了Event在主库是如何跳过的，但是注意IO线程和SQL线程在处理Read_Master_Log_Pos和Exec_Master_Log_Pos的时候可能有一定的时间差，那么Read_Master_Log_Pos和Exec_Master_Log_Pos存在一定的差值的条件就可能会满足，则进入延迟计算环节。

主库的SQL线程平时并没有读取到Event，因为所有的Event都被IO线程过滤掉了。因此
Event的 header中的timestamp 不会更新（MTS）。但是如果从库binlog切换的时候，从库至少会传送ROTATE_EVENT给主库，这个时候主库会拿到这个实际的Event，因此Event的 header中的timestamp 更新了。如果刚好遇到主库的IO线程的Read_Master_Log_Pos和Exec_Master_Log_Pos有差值，
那么falcon去查看延迟就会得到一个延迟很大的假象，延迟的计算公式就会变为如下：

主库当前的时候 - 从库上次binlog切换的时间 - 主从时间的差值

MTS和单线程的不同

上面的第3点只适用于MTS，单SQL线程不同，会去将last_master_timestamp设置为0，代码如下：

        if (!rli->is_parallel_exec())
          rli->last_master_timestamp= 0;

言外之意单SQL线程计算延迟的公式为：

主库当前的时间 - 1970年1月1日0点 - 主从时间的差值

因此看起来计算出来的延迟会更大。

最后需要注意的是实际上这种情况的延迟并没有问题，完全是一种偶尔出现的计算上的问题，是一种假象，如果主库的压力越大出现这种情况的可能性就会越大，因为IO线程和SQL线程在处理Read_Master_Log_Pos和Exec_Master_Log_Pos的出现时间差的可能性就会越大。

            </div>

MySQL 双主单写，主库偶尔出现大量延迟的原因(1)

一、问题来源

二、延迟计算的规则

三、产生延迟的原因

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

MySQL 双主单写，主库偶尔出现大量延迟的原因(1)

一、问题来源

二、延迟计算的规则

三、产生延迟的原因

热门文章

最新文章

相关电子书