数据库内核月报 - 2015 / 07-MySQL · TokuDB · TokuDB Checkpoint机制

简介:

导读:TokuDB在“云端”的优势

为了降低用户数据存储成本,2015年4月份,云数据库(Aliyun RDS)增加了TokuDB引擎支持(MySQL5.6版本),也是第一家支持TokuDB的RDS。

我们知道,当一个实例的数据空间超过TB级别时,空间存储和运维成本都是非常高的,尤其是做实例迁移和备份,整个过程耗时会非常长。

我们对线上一些大的InnoDB实例(TB级)平滑迁移到TokuDB后,数据空间从 2TB+ 直接降到 400GB ,空间成本仅为原来的五分之一,而且读写性能没有任何降低(写性能反而提升不少)。通过线上几个大实例(TB级)的使用,TokuDB的压缩比均在5倍以上,同样的空间大小,使用TokuDB后可以存5倍的容量!

TokuDB的另外一个特点就是低IO消耗,相同数据量下,IO花销基本是InnoDB的1/8,IO成本也降低了不少,同样的IOPS限制下,TokuDB写性能会更高。因为IOPS消耗较少,RDS已经在线上部署TokuDB+廉价SATA盘集群,配合“方寸山”(分库分表proxy)来提供低成本高性能的PB级日志存储能力。

这个集群使用廉价的SATA盘(IOPS能力~120),单台物理机基本可提供30,000 TPS的写能力(tokudb_fsync_log_period=0和sync_binlog=1,针对类如日志型应用,对数据安全性要求不是很高的话,调整tokudb_fsync_log_period=1000,sync_binlog=1000,性能会更高),利用TokuDB的大页(page size 4MB)压缩优势,尤其是对日志内容,压缩比基本在1/8以上,单机可提供160TB+的的存储能力,整个集群可轻松支持PB级。

使用TokuDB,让你随便任性!

本篇来探讨下TokuDB内部的一个重要机制: checkpoint。

TokuDB的checkpoint只有一种方式:sharp checkpoint,即做checkpoint的时候,需要把内存中所有的”脏页”都刷回磁盘。本篇就来介绍下TokuDB的sharp checkpoint的一些具体细节,使看官们对TokuDB的checkpoint有个大概了解。

为什么要checkpoint

TokuDB引擎里,数据存在于3个地方:

  1. Redo Log (disk)
  2. Buffer Pool (memory)
  3. Data File (disk)

为了性能,对“页”级的操作会先被Cache到Buffer Pool里,当触发某些条件后,才会把这些“脏页”刷到磁盘进行持久化,这样就带来一个问题:
对于TokuDB来说,整个Fractal-Tree元素有两部分的“页”组成:(Buffer Pool里的“页” ) + (Data File里已持久化的”页”),如果TokuDB crash后,Buffer Pool里的“页”丢失,只剩Data File的“页”,此时的Fractal-Tree处于“混沌“状态(不一致状态)。

为了避免出现这种“混沌“状态,TokuDB需要定期(默认60s)做Checkpoint操作,把Buffer Pool里的“脏页”刷到磁盘的Data File里。

当TokuDB Crash后,只需从上次的一致性状态点开始“回放” Redo Log里的日志即可,恢复的数据量大概就是60s内的数据,快吧?嗯。

TokuDB Checkpoint机制

TokuDB checkpoint分2个阶段:begin_checkpoint 和 end_checkpoint

大体逻辑如下:

begin_checkpoint:

C1, 拿到checkpoint锁
C2, 对buffer pool的page_list加read-lock
C3, 遍历page_list,对每个page设置checkpoint_pending flag
C4, 释放buffer pool page_list的读锁

end_checkpoint:

C5, 遍历page_list,对checkpoint_pending为true且为“脏”的page尝试获取write-lock
C6, 如果拿到write-lock,clone出来一份,释放write-lock,然后把clone的page刷回磁盘

以上就是整个checkpoint大概的逻辑,整个过程中,只有C6的任务最“繁重”,在这里面有几个“大活”:

  1. clone的时候如果是leaf“页”,会对原“页”重做数据均分(leaf里包含多个大小均匀的子分区) –CPU消耗
  2. 刷盘前做大量压缩 –CPU消耗
  3. 多线程并发的把page刷到磁盘 –IO操作

以上3点会导致checkpoint的时候出现一点点的性能抖动,下面看组数据:

[ 250s] threads: 32, tps: 5095.80, reads/s: 71330.94, writes/s: 20380.38, response time: 8.14ms (95%)
[ 255s] threads: 32, tps: 4461.80, reads/s: 62470.82, writes/s: 17848.80, response time: 10.03ms (95%)
[ 260s] threads: 32, tps: 4968.79, reads/s: 69562.25, writes/s: 19873.96, response time: 8.49ms (95%)
[ 265s] threads: 32, tps: 5123.61, reads/s: 71738.31, writes/s: 20494.03, response time: 8.06ms (95%)
[ 270s] threads: 32, tps: 5119.00, reads/s: 71666.02, writes/s: 20475.61, response time: 8.11ms (95%)
[ 275s] threads: 32, tps: 5117.00, reads/s: 71624.40, writes/s: 20469.00, response time: 8.07ms (95%)
[ 280s] threads: 32, tps: 5117.39, reads/s: 71640.26, writes/s: 20471.56, response time: 8.08ms (95%)
[ 285s] threads: 32, tps: 5103.21, reads/s: 71457.54, writes/s: 20414.24, response time: 8.11ms (95%)
[ 290s] threads: 32, tps: 5115.80, reads/s: 71608.46, writes/s: 20461.42, response time: 8.11ms (95%)
[ 295s] threads: 32, tps: 5121.98, reads/s: 71708.73, writes/s: 20484.72, response time: 8.09ms (95%)
[ 300s] threads: 32, tps: 5115.01, reads/s: 71617.00, writes/s: 20462.46, response time: 8.08ms (95%)
[ 305s] threads: 32, tps: 5115.00, reads/s: 71611.76, writes/s: 20461.79, response time: 8.11ms (95%)
[ 310s] threads: 32, tps: 5100.01, reads/s: 71396.90, writes/s: 20398.03, response time: 8.13ms (95%)
[ 315s] threads: 32, tps: 4479.20, reads/s: 62723.81, writes/s: 17913.40, response time: 10.02ms (95%)
[ 320s] threads: 32, tps: 4964.80, reads/s: 69496.00, writes/s: 19863.60, response time: 8.63ms (95%)
[ 325s] threads: 32, tps: 5112.19, reads/s: 71567.45, writes/s: 20447.56, response time: 8.12ms (95%)

以上为sysbench测试数据(读写混合),仅供参考,可以看到在[255s]和[315s]checkpoint的时候,性能有个抖动。

喵,另外一个问题来了:如果TokuDB在end_checkpoint C6的时候crash了呢,只有部分“脏页”被写到磁盘?此时的数据库(Fractal-Tree)状态岂不是不一致了?

TokuDB在这里使用了copy-on-write模型,本次checkpoint的“脏页”在刷到磁盘的时候,不会覆写上次checkpoint的文件区间,保证在整个checkpoint过程中出现crash,不会影响整个数据库的状态。

本篇只是大概介绍了TokuDB的checkpoint机制,还有非常多的细节,感兴趣的同学可阅读ft/cachetable代码。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
7月前
|
缓存 NoSQL 算法
Redis数据库的键值过期和删除机制
我们需要注意的是,虽然Redis提供了这么多高级的缓存机制,但在使用过程中,必须理解应用的特性,选择合适的缓存策略,才能最大化Redis的性能。因此,在设计和实施应用程序时,理解应用的数据访问模式,以及这些模式如何与Redis的缓存机制相互作用,尤为重要。
272 24
|
存储 关系型数据库 MySQL
MySQL MVCC全面解读:掌握并发控制的核心机制
【10月更文挑战第15天】 在数据库管理系统中,MySQL的InnoDB存储引擎采用了一种称为MVCC(Multi-Version Concurrency Control,多版本并发控制)的技术来处理事务的并发访问。MVCC不仅提高了数据库的并发性能,还保证了事务的隔离性。本文将深入探讨MySQL中的MVCC机制,为你在面试中遇到的相关问题提供全面的解答。
917 2
|
缓存 关系型数据库 MySQL
MySQL并发支撑底层Buffer Pool机制详解
【10月更文挑战第18天】在数据库系统中,磁盘IO操作是性能瓶颈之一。为了提高数据访问速度,减少磁盘IO,MySQL引入了缓存机制。其中,Buffer Pool是InnoDB存储引擎中用于缓存磁盘上的数据页和索引页的内存区域。通过缓存频繁访问的数据和索引,Buffer Pool能够显著提高数据库的读写性能。
574 2
|
9月前
|
存储 缓存 Oracle
崖山数据库YashanDB的共享集群机制初探
YashanDB共享集群是崖山数据库系统的核心特性,支持单库多实例并发读写,确保强一致性与高可用性。基于Shared-Disk架构和Cohesive Memory技术,实现数据页协同访问及资源控制。其核心组件包括YCK、YCS和YFS,提供金融级RPO=0、RTO<10秒的高可用能力。通过自研“七种武器”(如页内锁、去中心化事务管理等),优化性能并解决读写冲突。相比Oracle RAC,YashanDB在TPC-C测试中性能高出30%,适用于金融、电信等关键领域,推动国产化替代进程。
崖山数据库YashanDB的共享集群机制初探
|
canal 消息中间件 关系型数据库
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
1840 4
|
存储 数据处理 Apache
超越传统数据库:揭秘Flink状态机制,让你的数据处理效率飞升!
【8月更文挑战第26天】Apache Flink 在流处理领域以其高效实时的数据处理能力脱颖而出,其核心特色之一便是状态管理机制。不同于传统数据库依靠持久化存储及 ACID 事务确保数据一致性和可靠性,Flink 利用内存中的状态管理和分布式数据流模型实现了低延迟处理。Flink 的状态分为键控状态与非键控状态,前者依据数据键值进行状态维护,适用于键值对数据处理;后者与算子实例关联,用于所有输入数据共享的状态场景。通过 checkpointing 机制,Flink 在保障状态一致性的同时,提供了更适合流处理场景的轻量级解决方案。
362 0
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
868 14
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
存储 关系型数据库 MySQL
优化 MySQL 的锁机制以提高并发性能
【10月更文挑战第16天】优化 MySQL 锁机制需要综合考虑多个因素,根据具体的应用场景和需求进行针对性的调整。通过不断地优化和改进,可以提高数据库的并发性能,提升系统的整体效率。
738 1
ly~
|
数据库 数据库管理
数据库的事务处理机制有哪些优点?
数据库的事务处理机制具备多种优势:首先,它能确保数据一致性,通过原子性保证所有操作全成功或全失败,利用完整性约束维护数据的有效性;其次,增强了系统可靠性,提供故障恢复能力和正确处理并发操作的功能;最后,简化了应用程序开发工作,将操作封装为逻辑单元并集中处理错误,降低了开发复杂度。
ly~
320 1
|
监控 关系型数据库 MySQL
MySQL锁机制与解决死锁问题
MySQL锁机制与解决死锁问题
641 5

相关产品

  • 云数据库 RDS MySQL 版
  • 推荐镜像

    更多