聊多版本并发控制(MVCC)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: MVCC是数据库并发控制技术,用于减少读写冲突。它维护数据的多个版本,使事务能读旧数据而写新数据,无需锁定记录。当前读获取最新版本,加锁防止修改;快照读不加锁,根据读取时的读视图(readview)决定读哪个版本。InnoDB通过隐藏字段(DB_TRX_ID, DB_ROLL_PTR)和undo log存储版本,readview记录活跃事务ID。读已提交每次读取都创建新视图,可重复读则在整个事务中复用一个视图,确保一致性。MVCC通过undo log版本链和readview规则决定事务可见性,实现了非阻塞并发读。

多版本并发控制(MVCC)

MVCC一直是数据库部分的高频面试题,这篇文章来聊聊MVCC是什么,以及一些底层原理的实现。

当前读和快照读:

  • 当前读:读取的是事务最新的版本,读取的过程中其他并发事务不能进行修改,需要对读取的记录进行加锁。
  • 快照读:不加任何锁的select语句就是快照读。假如在可重复读隔离级别下,事务A进行select先后两次读取,而事务B在两次读取过程中修改了数据并提交了事务,那么事务A读到的就不是最新版本的数据。如果想读到最新版本的数据,需要在读取的过程中加锁,如select ... lock in share mode.
    • 读已提交隔离级别下:每次select都是一次快照读,因为每次读都可能读取到的是其他事务已经提交的增删改操作
    • 可重复读隔离级别下:开启事务后第一次select才是快照读,因为其后的select读取不到其他事务提交的增删改操作
    • 串行化隔离级别下:每次select都是一次当前读,因为每次读取都会加锁

MVCC的概念:

  • MVCC即多版本并发控制,维护一个数据的多个版本,使得不同事务之间的读写操作没有冲突。
  • 什么是版本:一行记录修改前和修改后就是两个不同的版本。

MVCC的实现原理:

  • MVCC依靠三样东西来实现:隐藏字段undo logreadview
  • 创建一个表的时候InnoDB会给表加上三个隐藏字段**DB_TRX_IDDB_ROLL_PTRDB_ROLL_ID**
    • DB_TRX_ID:最近一次修改这一行记录的事务的id。比如DB_TRX_ID = 4,表示最近一次修改这行 记录的事务是4。
    • DB_ROLL_PTR:回滚指针,指针指向这行记录的上一个版本,用于配合undo log回滚日志来找到这行记录的上一个版本(执行增删改之前的版本)
    • DB_ROLL_ID:隐藏主键。如果表没有指定主键的时候会自动生成。如果已经指定了主键,就不会生成。

image-20240330182341116.png

  • undo log:在insert的时候,undo log只在回滚的时候需要,在事务提交后可以立即删除,不需要记录上一个版本该行的数据(因为上一版本该行不存在;在updatedelete的时候,不仅回滚的时候需要,多版本并发控制的时候也需要用来记录上一数据版本,用于多版本并发控制,因此事务提交后也不会立即删除。
    • undo log版本链

image-20240330192626725.png

  • readview:每次事务执行快照读都有可能会生成readview。决定快照读读取的是undo log版本链中的哪一条历史记录。readview记录的是当前活跃中(未提交)的事务的id,包含以下四个字段:
    • m_ids:当前正在活跃中的事务的集合
    • min_trx_id:最小的活跃中的事务id
    • max_trx_id:不是当前正在活跃中的事务集合的最大id,而是预分配的事务id,即最大活跃中的事务id+1(因为事务id是自增的,因此加一)
    • creator_trx_id:readview创建者的事务id
    • 版本链数据的访问规则:trx_id:undo log记录的当前事务的id,即隐藏字段DB_TRX_ID,用这个id去匹配下面的规则,如果符合其中某一条件,说明当前版本是可以读取的;如果不符合条件,说明这个版本的数据不能读,就会顺着版本链去寻找更老的版本的数据
      • 如果trx_id = creator_trx_id:说明数据就是当前事务修改的,因此是可以读取到的
      • 如果trx_id < min_trx_id:说明当前事务不是活跃中的事务(已经提交),已提交的数据版本是可以读取到的
      • 如果trx_id > max_trx_id:说明当前事务是在readview生成后才开启的(?),因此不可以访问该版本的数据
      • 如果min_trx_id < trx_id <= max_trx_id且 trx_id不属于活跃中的事务的集合,说明该事务数据已经提交,已提交的数据版本是可以读取到的
      • readview的生成时机:不同隔离级别生成时机不同。如果是读已提交隔离级别,那么在事务中每次执行快照读都会生成readview;如果是可重复读隔离级别,那么只在事务第一次执行快照读的时候生成readview,后续会复用这个readview

MVCC演示:

  • 读已提交隔离级别:在这种隔离级别下,每一次快照读都会生成一个readview,在事务5中,第一次快照读会有三个活跃中的事务3、4、5;第二次快照读由于事务3已经提交,因此只有两个活跃中的事务4和5。
    • 第一次快照读,此时有三个活跃中的事务3、4、5;
      • 最近一次对id = 30这行记录进行修改的事务id是4,即trx_id = 4,均不符合版本链数据的访问规则,因此顺着版本链去寻找更老版本的数据,即trx_id = 3;
      • trx_id = 3,也均不符合版本链数据的访问规则,继续寻找trx_id = 2;
      • trx_id = 2时,符合第二条规则,trx_id(2) < min_trx_id(3),小于最小的正在活跃中的事务id,说明trx_id = 2这个事务已经提交了,结合读已提交隔离级别的宏观理解,并发事务是可以读取到其他事务已经提交的数据的,因此查询结果就是trx_id = 2对应的版本
    • 第二次快照读,此时有两个活跃中的事务4、5。
      • 最近一次对id = 30这行记录进行修改的事务id是4,即trx_id = 4,均不符合版本链数据的访问规则,因此顺着版本链去寻找更老版本的数据,即trx_id = 3;
      • trx_id = 3时,符合第二条规则,trx_id(3) < min_trx_id(4),小于最小的正在活跃中的事务id,说明trx_id = 3这个事务已经提交了,结合读已提交隔离级别的宏观理解,并发事务是可以读取到其他事务已经提交的数据的,因此查询结果就是trx_id = 3对应的版本

image-20240330205128148.png

可重复读隔离级别:在这种隔离级别下,只在事务第一次执行快照读的时候生成readview,后续再读取的时候会复用这个readview。以下过程和读已提交隔离级别的过程相同,唯一的区别是读已提交隔离级别两次执行快照读都会生成新的readview,因而两次读取的结果不同;而可重复读隔离级别两次执行快照读的readview都相同,因而读取结果相同。上述过程就是不可重复读的底层原理。

  • 第一次快照读,此时有三个活跃中的事务3、4、5;
    • 最近一次对id = 30这行记录进行修改的事务id是4,即trx_id = 4,均不符合版本链数据的访问规则,因此顺着版本链去寻找更老版本的数据,即trx_id = 3;
    • trx_id = 3,也均不符合版本链数据的访问规则,继续寻找trx_id = 2;
    • trx_id = 2时,符合第二条规则,trx_id(2) < min_trx_id(3),小于最小的正在活跃中的事务id,说明trx_id = 2这个事务已经提交了,结合读已提交隔离级别的宏观理解,并发事务是可以读取到其他事务已经提交的数据的,因此查询结果就是trx_id = 2对应的版本
  • 第二次快照读复用第一次采用的readview,因此读取结果相同。

image-20240330205350114.png

目录
相关文章
|
存储 关系型数据库 MySQL
MVCC多版本并发控制
MVCC多版本并发控制 1、MVCC MVCC,全称Multi-Version Concurrency Control,即多版本并发控制。MVCC是一种并发控制的方法,一般在数据库管理系统中,实现对数据库的并发访问,在编程语言中实现事务内存。
96 0
|
6月前
|
存储 缓存 关系型数据库
⑩⑧【MySQL】InnoDB架构、事务原理、MVCC多版本并发控制
⑩⑧【MySQL】InnoDB架构、事务原理、MVCC多版本并发控制
210 0
|
数据库
谈谈你对MVCC的理解
MVCC也是一道非常高频的面试题,今天我花两分钟时间给大家梳理一下。另外,我花了1个多星期把往期的面试题解析配套文档准备好了,想获取的小伙伴可以在我的煮叶简介中找到。
102 0
|
29天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
254 4
|
17天前
MVCC 与其他并发控制机制的区别
【10月更文挑战第15天】总之,MVCC 与其他并发控制机制各有特点和适用场景。在实际应用中,需要根据具体的业务需求和系统特点选择合适的并发控制机制,以实现最佳的性能和数据一致性。
|
5月前
|
存储 关系型数据库 MySQL
第16章_多版本并发控制
第16章_多版本并发控制
33 0
|
6月前
|
存储 关系型数据库 MySQL
MVCC:深入解析多版本并发控制机制
【4月更文挑战第20天】MVCC是数据库并发控制的关键技术,通过保存数据多个版本,使读写操作无锁并发,减少锁竞争,提高并发性能。它保证事务看到一致数据快照,避免并发问题,并支持事务回滚与恢复。MVCC广泛应用于PostgreSQL、InnoDB等,提供时间旅行查询和无锁读等功能,对于构建高性能、高并发数据库系统至关重要。
145 13
|
算法 关系型数据库 MySQL
MySQL事务隔离实现原理,多版本并发控制MVCC
MySQL事务隔离实现原理,多版本并发控制MVCC
177 0
|
6月前
|
存储 SQL 关系型数据库
MySQL MVCC多版本并发控制(脏读和不可重复读解决原理)
MySQL MVCC多版本并发控制(脏读和不可重复读解决原理)
152 0
MySQL MVCC多版本并发控制(脏读和不可重复读解决原理)
|
存储 关系型数据库 Go
深入理解 PostgreSQL 中的 MVCC(多版本并发控制)机制
深入理解 PostgreSQL 中的 MVCC(多版本并发控制)机制
234 0