MySQL · 源码分析 · binlog crash recovery

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 前言本文主要介绍binlog crash recovery 的过程假设用户使用 InnoDB 引擎,sync_binlog=1使用 MySQL 5.7.20 版本进行分析crash recovery 过程中,binlog 需要保证:所有已提交事务的binlog已存在 所有未提交...

前言

本文主要介绍binlog crash recovery 的过程

假设用户使用 InnoDB 引擎,sync_binlog=1

使用 MySQL 5.7.20 版本进行分析

crash recovery 过程中,binlog 需要保证:

  1. 所有已提交事务的binlog已存在
  2. 所有未提交事务的binlog不存在

两阶段提交

MySQL 使用两阶段提交解决 binlog 和 InnoDB redo log 的一致性的问题

也就是将普通事务当做内部XA事务处理,为每个事务分配一个XID,binlog作为事务的协调者

  • 阶段1:InnoDB redo log 写盘,InnoDB 事务进入 prepare 状态
  • 阶段2:binlog 写盘,InooDB 事务进入 commit 状态

每个事务binlog的末尾,会记录一个 XID event,标志着事务是否提交成功,也就是说,recovery 过程中,binlog 最后一个 XID event 之后的内容都应该被 purge。

InnoDB 日志可能也需要回滚或者提交,这里就不再展开。

binlog 文件的 crash recovery

mysqld_main

  init_server_components
    
    MYSQL_BIN_LOG::open

      MYSQL_BIN_LOG::open_binlog

binlog recover 的主要过程在 MYSQL_BIN_LOG::open_binlog 中

int MYSQL_BIN_LOG::open_binlog(const char *opt_name)
{
  
  /* 确保 index 文件初始化成功 */
  if (!my_b_inited(&index_file))                                                                                                                                                                            
  {
    /* There was a failure to open the index file, can't open the binlog */
    cleanup();
    return 1;
  }
  
  /* 找到 index 中第一个 binlog */
  if ((error= find_log_pos(&log_info, NullS, true/*need_lock_index=true*/)))
  
  {
    /* 找到 index 中最后一个 binlog */
    do
    {
      strmake(log_name, log_info.log_file_name, sizeof(log_name)-1);                                                                                                                                        
    } while (!(error= find_next_log(&log_info, true/*need_lock_index=true*/)));
    
    
    /*
      打开最后一个binlog,会校验文件头的 magic number "\xfe\x62\x69\x6e"
      如果 magic number 校验失败,会直接报错退出,无法完成recovery
      如果确定最后一个binlog没有内容,可以删除binlog 文件再重试
    */
    if ((file= open_binlog_file(&log, log_name, &errmsg)) < 0)
    
    /*
      如果 binlog 没有正常关闭,mysql server 可能crash过,
      我们需要调用 MYSQL_BIN_LOG::recover:
        
        a) 找到最后一个 XID
        b) 完成最后一个事务的两阶段提交(InnoDB commit)
        c) 找到最后一个合法位点
      
      因此,我们需要遍历 binlog 文件,找到最后一个合法event集合,并 purge 无效binlog
    */
    if ((ev= Log_event::read_log_event(&log, 0, &fdle,
                                       opt_master_verify_checksum)) &&
        ev->get_type_code() == binary_log::FORMAT_DESCRIPTION_EVENT &&
        (ev->common_header->flags & LOG_EVENT_BINLOG_IN_USE_F ||
         DBUG_EVALUATE_IF("eval_force_bin_log_recovery", true, false)))
    {
      sql_print_information("Recovering after a crash using %s", opt_name);   
      
      /* 初始化合法位点 */                                                                                                                              
      valid_pos= my_b_tell(&log);
      
      /* 执行recover 过程 ,并计算出合法位点 */
      error= recover(&log, (Format_description_log_event *)ev, &valid_pos);
    }
    else
      error=0;
    
    if (valid_pos > 0){
      if (valid_pos < binlog_size)
      { 
        /* 将 valid_pos 后面的binlog purge掉 */
        if (my_chsize(file, valid_pos, 0, MYF(MY_WME)))
      }
    }
  }   
}

recover 函数的逻辑很简单:遍历最后一个binlog的所有 event,每次事务结尾,或者非事务event结尾更新 valid_pos(gtid event不更新)。并在一个 hash 中记录所有xid,用于引擎层 recover

int MYSQL_BIN_LOG::recover(IO_CACHE *log, Format_description_log_event *fdle,
                            my_off_t *valid_pos)
{

  /* 初始化 XID hash,用于记录 binlog 中的 xid */
  if (! fdle->is_valid() ||                                                                                                                                                                                 
      my_hash_init(&xids, &my_charset_bin, TC_LOG_PAGE_SIZE/3, 0,
                   sizeof(my_xid), 0, 0, MYF(0),
                   key_memory_binlog_recover_exec))
    goto err1;
  
  /* 依次读取 binlog event */
  while ((ev= Log_event::read_log_event(log, 0, fdle, TRUE))
         && ev->is_valid())
  {
    if (ev->get_type_code() == binary_log::QUERY_EVENT &&
        !strcmp(((Query_log_event*)ev)->query, "BEGIN"))
      /* begin 代表事务开始 */
      in_transaction= TRUE;

    if (ev->get_type_code() == binary_log::QUERY_EVENT &&
        !strcmp(((Query_log_event*)ev)->query, "COMMIT"))
    {
      DBUG_ASSERT(in_transaction == TRUE);
      /* commit 代表事务结束 */
      in_transaction= FALSE;
    }
    else if (ev->get_type_code() == binary_log::XID_EVENT)
    {
      DBUG_ASSERT(in_transaction == TRUE);
      /* xid event 代表事务结束 */
      in_transaction= FALSE;
      Xid_log_event *xev=(Xid_log_event *)ev;
      uchar *x= (uchar *) memdup_root(&mem_root, (uchar*) &xev->xid,
                                      sizeof(xev->xid));
      /* 记录 xid */
      if (!x || my_hash_insert(&xids, x))
        goto err2;
    }

    /*
      如果不在事务中,且不是gtid event,则更新 valid_pos
      显然,如果在事务中,最后一段 event 不是一个完整事务,pos并不合法
    */
    if (!log->error && !in_transaction &&
        !is_gtid_event(ev))
      *valid_pos= my_b_tell(log);
  }

  /*
    存储引擎recover
    所有已经记录 XID 的事务必须在存储引擎中提交
    未记录 XID 的事务必须回滚
  */
  if (total_ha_2pc > 1 && ha_recover(&xids))
    goto err2;

binlog index 的 crash recovery

为了保证 binlog index 的 crash safe,MySQL 引入了一个临时文件 crash_safe_index_file

新的 binlog_file_name 写入 binlog_index_file 流程如下:

  • 创建临时文件 crash_safe_index_file
  • 拷贝 binlog_index_file 中的内容到 crash_safe_index_file
  • 新的 binlog_file_name 写入 crash_safe_index_file
  • 删除 binlog_index_file
  • 重命名 crash_safe_index_file 到 binlog_index_file

这个流程保证了在任何时候crash,binlog_index_file 和 crash_safe_index_file 至少有一个可用

这样再recover 时只要判断这两个文件是否可用,如果 binlog_index_file 可用则无需特殊处理,如果binlog_index_file 不可用则重命名 crash_safe_index_file 到 binlog_index_file

binlog index 的 recover 过程主要在 bool MYSQL_BIN_LOG::open_index_file 中

显然,open_indix_file 在 open_binlog 之前

mysqld_main

  init_server_components

    MYSQL_BIN_LOG::open_index_file


bool MYSQL_BIN_LOG::open_index_file(const char *index_file_name_arg,
                                    const char *log_name, bool need_lock_index)
{
  /* 拼接 index_file_name */
  fn_format(index_file_name, index_file_name_arg, mysql_data_home,
            ".index", opt); 

  /* 拼接 crash_safe_index_file_name */
  if (set_crash_safe_index_file_name(index_file_name_arg))

  /*
    recover 主要体现在这里
    检查 index_file_name 和 crash_safe_index_file_name 是否存在
    如果 index_file_name 不存在 crash_safe_index_file_name 存在,
    那么将 crash_safe_index_file_name 重命名为 index_file_name
  */
  if (my_access(index_file_name, F_OK) &&
      !my_access(crash_safe_index_file_name, F_OK) &&
      my_rename(crash_safe_index_file_name, index_file_name, MYF(MY_WME)))
  {
    sql_print_error("MYSQL_BIN_LOG::open_index_file failed to "
                    "move crash_safe_index_file to index file.");
    error= true;
    goto end;
  }

}

新的 binlog_file_name 写入 binlog_index_file 的过程在 MYSQL_BIN_LOG::add_log_to_index

int MYSQL_BIN_LOG::add_log_to_index(uchar* log_name,
                                    size_t log_name_len, bool need_lock_index)
{
  /* 创建 crash_safe_index_file */
  if (open_crash_safe_index_file())

  /* 拷贝 index_file 内容到 crash_safe_index_file */
  if (copy_file(&index_file, &crash_safe_index_file, 0))
  
  /* 写入 binlog_file_name */
  if (my_b_write(&crash_safe_index_file, log_name, log_name_len) ||
      my_b_write(&crash_safe_index_file, (uchar*) "\n", 1) ||
      flush_io_cache(&crash_safe_index_file) ||
      mysql_file_sync(crash_safe_index_file.file, MYF(MY_WME)))

  /*
    函数内部先 delete binlog_index_file 再 rename crash_safe_index_file
    如果 delete 到 rename 之间发生 crash, crash_safe_index_file 会在 recover过程中 rename 成 binlog_index_file
  */
  if (move_crash_safe_index_file_to_index_file(need_lock_index))
  
}

总结

MySQL 解决了binlog crash safe 的问题,但是 relay log 依然不保证 crash safe。

relay log 结构和 binlog 一致,可以借鉴 binlog crash safe 的方式,计算出 valid_pos,将 valid_pos之后的 event 全部purge。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
5月前
|
SQL 运维 关系型数据库
深入探讨MySQL的二进制日志(binlog)选项
总结而言,对MySQL binlogs深度理解并妥善配置对数据库运维管理至关重要;它不仅关系到系统性能优化也是实现高可靠性架构设计必须考虑因素之一。通过精心规划与周密部署可以使得该机能充分发挥作用而避免潜在风险带来影响。
189 6
|
6月前
|
存储 SQL 关系型数据库
MySQL中binlog、redolog与undolog的不同之处解析
每个都扮演回答回溯与错误修正机构角色: BinLog像历史记载员详细记载每件大大小小事件; RedoLog则像紧急救援队伍遇见突發情況追踪最后活动轨迹尽力补救; UndoLog就类似时间机器可倒带历史让一切归位原始样貌同时兼具平行宇宙观察能让多人同时看见各自期望看见历程而互不干扰.
341 9
|
7月前
|
存储 SQL 关系型数据库
MySQL的Redo Log与Binlog机制对照分析
通过合理的配置和细致的管理,这两种日志机制相互配合,能够有效地提升MySQL数据库的可靠性和稳定性。
254 10
|
9月前
|
SQL 监控 关系型数据库
MySQL日志分析:binlog、redolog、undolog三大日志的深度探讨。
数据库管理其实和写小说一样,需要规划,需要修订,也需要有能力回滚。理解这些日志的作用与优化,就像把握写作工具的使用与运用,为我们的数据库保驾护航。
446 23
|
10月前
|
SQL 运维 关系型数据库
MySQL Binlog 日志查看方法及查看内容解析
本文介绍了 MySQL 的 Binlog(二进制日志)功能及其使用方法。Binlog 记录了数据库的所有数据变更操作,如 INSERT、UPDATE 和 DELETE,对数据恢复、主从复制和审计至关重要。文章详细说明了如何开启 Binlog 功能、查看当前日志文件及内容,并解析了常见的事件类型,包括 Format_desc、Query、Table_map、Write_rows、Update_rows 和 Delete_rows 等,帮助用户掌握数据库变化历史,提升维护和排障能力。
|
存储 SQL 关系型数据库
mysql 的ReLog和BinLog区别
MySQL中的重做日志和二进制日志是确保数据库稳定性和可靠性的关键组件。重做日志主要用于事务的持久性和原子性,通过记录数据页的物理修改信息来恢复未提交的事务;而二进制日志记录SQL语句的逻辑变化,支持数据复制、恢复和审计。两者在写入时机、存储方式及配置参数等方面存在显著差异。
284 6
|
存储 SQL 关系型数据库
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log、原理、写入过程;binlog与redolog区别、update语句的执行流程、两阶段提交、主从复制、三种日志的使用场景;查询日志、慢查询日志、错误日志等其他几类日志
943 35
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log
|
canal 消息中间件 关系型数据库
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
2009 4
|
SQL 关系型数据库 MySQL
【揭秘】MySQL binlog日志与GTID:如何让数据库备份恢复变得轻松简单?
【8月更文挑战第22天】MySQL的binlog日志记录数据变更,用于恢复、复制和点恢复;GTID为每笔事务分配唯一ID,简化复制和恢复流程。开启binlog和GTID后,可通过`mysqldump`进行逻辑备份,包含binlog位置信息,或用`xtrabackup`做物理备份。恢复时,使用`mysql`命令执行备份文件,或通过`innobackupex`恢复物理备份。GTID模式下的主从复制配置更简便。
1678 2
|
SQL 关系型数据库 MySQL
【MySQL】根据binlog日志获取回滚sql的一个开发思路
【MySQL】根据binlog日志获取回滚sql的一个开发思路

相关产品

  • 云数据库 RDS MySQL 版
  • 推荐镜像

    更多