slave开启MTS时执行mysqldump引发死锁案例(2)

简介: slave开启MTS时执行mysqldump引发死锁案例

五、关于woker线程w2的等待


这里可能的原因有2个:

  • 多线程并行的情况下,线程执行的顺序本生就是不定的,很可能线程由于丢失CPU而落后其他线程的处理,因为CPU调度的最小单位是线程。如果保证某个共享内存操作的完整性需要用到mutex、原子变量等技术。
  • 如果w2中的事务本生就包含了多个DML语句,那么获取 GLOBAL READ LOCK 本身就是间歇性的,也就是每个语句结束都会释放,然后下一个语句开始的时候再次open table来获取。

我们来看看第二点,只考虑row_format格式的binlog。

我们知道一个事务可以包含多个语句,每条语句都会包含一个map Event和多个DML Event,当本Event是语句的最后一个Event的时候会使用STMT_END_F进行标记,也正是在这个时候会释放 GLOBAL READ LOCK,源码有如下:



if (get_flags(STMT_END_F))
  {
    if((error= rows_event_stmt_cleanup(rli, thd)))

栈:
#0  MDL_context::release_lock (this=0x7fffa8000a08, duration=MDL_STATEMENT, ticket=0x7fffa800ea40) at /opt/percona-server-locks-detail-5.7.22/sql/mdl.cc:4350
#1  0x0000000001464bf1 in MDL_context::release_locks_stored_before (this=0x7fffa8000a08, duration=MDL_STATEMENT, sentinel=0x0) at /opt/percona-server-locks-detail-5.7.22/sql/mdl.cc:4521
#2  0x000000000146541b in MDL_context::release_statement_locks (this=0x7fffa8000a08) at /opt/percona-server-locks-detail-5.7.22/sql/mdl.cc:4813
#3  0x0000000001865c75 in Relay_log_info::slave_close_thread_tables (this=0x341e8b0, thd=0x7fffa8000970) at /opt/percona-server-locks-detail-5.7.22/sql/rpl_rli.cc:2014
#4  0x0000000001865873 in Relay_log_info::cleanup_context (this=0x341e8b0, thd=0x7fffa8000970, error=false) at /opt/percona-server-locks-detail-5.7.22/sql/rpl_rli.cc:1886
#5  0x00000000017e8fc7 in rows_event_stmt_cleanup (rli=0x341e8b0, thd=0x7fffa8000970) at /opt/percona-server-locks-detail-5.7.22/sql/log_event.cc:11782
#6  0x00000000017e8c79 in Rows_log_event::do_apply_event (this=0x7fffa8017dc0, rli=0x341e8b0) at /opt/percona-server-locks-detail-5.7.22/sql/log_event.cc:11660
#7  0x00000000017cfdcd in Log_event::apply_event (this=0x7fffa8017dc0, rli=0x341e8b0) at /opt/percona-server-locks-detail-5.7.22/sql/log_event.cc:3570
#8  0x00000000018476dc in apply_event_and_update_pos (ptr_ev=0x7fffec14f880, thd=0x7fffa8000970, rli=0x341e8b0) at /opt/percona-server-locks-detail-5.7.22/sql/rpl_slave.cc:4766
#9  0x0000000001848d9a in exec_relay_log_event (thd=0x7fffa8000970, rli=0x341e8b0) at /opt/percona-server-locks-detail-5.7.22/sql/rpl_slave.cc:5300
#10 0x000000000184f9cc in handle_slave_sql (arg=0x33769a0) at /opt/percona-server-locks-detail-5.7.22/sql/rpl_slave.cc:7543
(gdb) p ticket->m_lock->key.mdl_namespace()
$1 = MDL_key::GLOBAL
(gdb) p ticket->m_type
$2 = MDL_INTENTION_EXCLUSIVE
(gdb) p ticket->m_duration
$3 = MDL_STATEMENT


如果下一条语句开始又会重新获取GLOBAL READ LOCK,这就是我说的间歇性获取。


到这里死锁条件已经成熟,只要遇到这种情况就可能需要人为介入才能继续了。


六、关于mysqldump


社区版在如下情况下需要增加FTWRL:

  • 设置了master-data
  • 设置了singal-transaction和flush-logs

percona版在如下情况需要增加FTWRL:

  • 设置了singal-transaction和flush-logs

我们来大概看看社区版的代码如下(代码版本8.0.21),下面是从FTWRL倒UNLOCK的过程:



 if ((opt_lock_all_tables || opt_master_data || //如果设置了 master data 设置flush table with read lock

(opt_single_transaction && flush_logs)) &&//如果设置了single transaction和flush logs 设置flush table with read lock
do_flush_tables_read_lock(mysql)) //设置flush table with read lock
goto err;
/*
/*
Flush logs before starting transaction since
this causes implicit commit starting mysql-5.5.
*/
if (opt_lock_all_tables || opt_master_data ||
(opt_single_transaction && flush_logs) || opt_delete_master_logs) {
if (flush_logs || opt_delete_master_logs) {//如果设置了 flush logs 进行日志刷新
if (mysql_refresh(mysql, REFRESH_LOG)) { //进行日志刷新
DB_error(mysql, "when doing refresh");
goto err;
}
verbose_msg("-- main : logs flushed successfully!\n");
}

/ Not anymore! That would not be sensible. /
flush_logs = false;
}

if (opt_delete_master_logs) {
if (get_bin_log_name(mysql, bin_log_name, sizeof(bin_log_name))) goto err;
}

if (opt_single_transaction && start_transaction(mysql)) goto err; //开启事务 RR

/ Add 'STOP SLAVE to beginning of dump /
if (opt_slave_apply && add_stop_slave()) goto err;

/* Process opt_set_gtid_purged and add SET @@GLOBAL.GTID_PURGED if required.
*/
if (process_set_gtid_purged(mysql)) goto err; //设置GTID,如果设置了gtid_purged 这个函数会跳过

if (opt_master_data && do_show_master_status(mysql)) goto err; //获取主库binlog位置
if (opt_slave_data && do_show_slave_status(mysql)) goto err; //slave_data 设置相关 从show slave中获取
if (opt_single_transaction &&
do_unlock_tables(mysql)) / unlock but no commit! /
goto err;



percona版本中增加了判断函数 check_consistent_binlog_pos,如下(不过多描述)


 if (opt_single_transaction && opt_master_data)
{
/*
See if we can avoid FLUSH TABLES WITH READ LOCK with Binlog_snapshot_*
variables.
*/
consistent_binlog_pos= check_consistent_binlog_pos(NULL, NULL);
}

if ((opt_lock_all_tables || (opt_master_data && !consistent_binlog_pos) ||//consistent_binlog_pos 0 需要 1 不需要
(opt_single_transaction && flush_logs)))
{
if (do_flush_tables_read_lock(mysql))
goto err;
}



七、如何解决

总结如下:

  • master-data 一般备份都会增加,因此只能在低峰期进行备份,尽量减少影响。
  • 考虑关闭参数 slave_preserve_commit_order。但是FTWRL的堵塞还是存在,只是不会产生死锁。
  • 如果压力不大可以考虑关闭MTS。但是FTWRL的堵塞还是存在,只是不会产生死锁。

全文完。

Enjoy MySQL :)

            </div>
相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
相关文章
|
敏捷开发 人工智能 测试技术
如何写出有效的单元测试
一个单元测试是一段自动化的代码,这段代码调用被测试的工作单元,之后对这个单元的单个最终结果的某些假设进行校验。单元测试几乎都是用单元测试框架编写的;只要产品代码不发生变化,单元测试的结果是稳定的。那么如何写出有效的单元测试呢?
如何写出有效的单元测试
|
存储 C++
2.3.1计算机网络(物理层传输介质 双绞线 同轴电缆 光纤 中继器 集线器)
物理层传输介质 传输介质及分类 ​1.双绞线(导向性传输介质) 2. 同轴电缆(导向性传输介质) 3.光纤(导向性传输介质)、 4.非导向性传输介质​ 5.总结 物理层设备 中继器 集线器(多口中继器)
2.3.1计算机网络(物理层传输介质 双绞线 同轴电缆 光纤 中继器 集线器)
|
Java 应用服务中间件 Maven
2022 最新 IntelliJ IDEA 详细配置 Tomcat 8.5 步骤演示(图文版)(一)
2022 最新 IntelliJ IDEA 详细配置 Tomcat 8.5 步骤演示(图文版)
1438 0
2022 最新 IntelliJ IDEA 详细配置 Tomcat 8.5 步骤演示(图文版)(一)
CSDN博客自定义栏目——Google、百度、必应站内搜索框
CSDN博客自定义栏目——Google、百度、必应站内搜索框
323 0
|
Python
Pycharm中如何下载自己想要的库!(超细教程)
Pycharm中如何下载自己想要的库!(超细教程)
3430 0
Pycharm中如何下载自己想要的库!(超细教程)
|
运维 Kubernetes 负载均衡
ASM 助力商米科技服务网格技术落地周期缩短,提升更新迭代效率70%
基于服务网格ASM提供的免运维、易升级以及产品丰富支持能力,让产研团队集中享受ServiceMesh带来的价值。ASM缩短了服务网格技术落地周期75%(由月缩短为周),提升更新迭代效率70%,缩短异常排错成本80%以及控制面资源成本100%节省。
2818 1
ASM 助力商米科技服务网格技术落地周期缩短,提升更新迭代效率70%
|
JavaScript 编译器 索引
TS进阶篇 | TS高级类型之字面量类型、联合类型、交叉类型(下)
TypeScript中除了基本类型之外,还定义了很多高级类型,高级类型包括字面量类型、联合类型、交叉类型、索引类型、映射类型、条件类型、this类型等。因为内容太多,所以这篇文章先来介绍前三个类型,其余类型会在高级类型的下篇介绍。
1111 0
|
iOS开发 Windows
弱网环境搭建方案选型
今天来聊聊目前大致有哪些可以搭建弱网环境的方案以及各自存在的问题。
705 0
第三方应用和自用型应用的区别
说明:自用型应用就是网页&移动应用 一、功能不同 1、第三方应用只能使用第三方应用授权功能代商户发起调用接口的请求,是不能直接使用第三方应用直接调用接口的 使用第三方应用自行调用接口会出现报错:此用户不允许自调用(isv.
1776 12
|
弹性计算 运维 监控
一文读懂云上DevOps能力体系!
自动化运维等级金字塔、自动化运维的进阶模式、DevOps的基础核心、云上标准化部署三大能力......
一文读懂云上DevOps能力体系!