MySQL千万数据方案调研,一不小心直接打挂我系统

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 大家好,我是Leo。之前聊的RocketMQ暂时放放,目前正在调研一个千万数据的处理方案。在准备测试数据的时候,执行了个 select 把我电脑内存打光了。然后OOM,黑屏,宕机。。

本章概括

image.png


对Server影响


当执行下列代码时,因为InnoDB的数据是保存在主键索引上的,所以全表扫描是直接查主键索引的数据。他会从第一行一直查到最后一行放入结果集,然后返回给客户端。

select * from waybill

这个结果集是啥,为什么会导致我OOM?

先看一下Server层的查询流程

image.png

  1. 获取一行数据,把数据写入 net_buffer
  2. 直至到最后一行,如果 net_buffer 满了,就会调用网络接口把数据发送给 Client
  3. 发送成功之后,清空 net_buffer 继续接收
  4. 如果发送失败,返回 EAGAINWSAEWOULDBLOCK,就表示本地网络栈socket buffer写满了,进入等待。直到网络栈重新可写,再继续发送

socket buffer  属于操作系统层,他是操作系统提供的socket缓冲区。缓冲区默认大小为8K(1024×8=8192字节),也可以设置成64K。

使用socket发送数据时先把数据发送到socket缓冲区中,之后接收函数从缓冲区中读取数据,如果发送端特别快的时候,缓冲区很快就被填满,我们可以根据情况设置缓冲区的大小,通过setsockopt函数实现

从流程可以得知 MySQL是边读边发的

占用最大的就是 net_buffer ,而且 net_buffer 的上限会控制在8K,为什么还会出现 OOM

一开始执行的时候这类知识我是知道的,但是我忽略了一个问题,日常使用时,我们会把数据库放在云服务器或者RDS中,今天为了测试千万数据我就直接在本地测了。

这就直接导致,服务器一直把数据返给客户端。都在本地,一不留神,悲剧了


强调一点! 对Server层来说,查询的结果是分段发给客户端的,所以Server不会把内存打爆。问题自然出在客户端了。


对InnoDB影响


大数据量查询时,InnoDB 内存的数据页是在 Buffer Pool(BP) 中管理的。主要起到了加速更新的作用。实际上 Buffer Pool  还有一个更重要的作用就是加速查询。

这个加速查询还依赖一个重要的指标 内存命中率

可以通过 show engine innodb status 命令查看,或者通过百度搜索 MySQL内存命令率查询

如果所有的查询都能在内存页中找到答案,那命中率肯定是 100% 。但是在生产环境上业务是比较复杂的,这个很难做到。

InnoDB Buffer Pool 的大小是由参数 innodb_buffer_pool_size 确定的,一般建议设置成可用物理内存的 60%~80%。

InnoDB Buffer Pool innodb的缓冲池

innodb_buffer_pool_size innodb缓冲池大小的配置项

在查询时,如果 Buffer Pool 满了,而又要从磁盘读入一个数据页时,它会淘汰一个数据页进行存放新的数据页。淘汰的依据就是 LRU 算法

LRU 最近最少使用算法,淘汰最久未使用的数据。

可以参考如下图,是一个LRU基本模型,它是使用链表实现的。

image.png

  1. 第一张图是读取数据2时,会把2放入链表的头部,然后其他数据依次向后移动
  2. 第二张图同感
  3. 第三张图是读取了链表上没有的数据,就会把当前最久未使用的数据移出,把头部的最新数据写入。

是不是觉得设计的很奇妙? 我也觉得这个思想好奇妙,但是对于当前场景不实用!

大数据量写入之后,他会不断把链表的数据不断替换,也就是不断淘汰,最终导致内存命中率急剧下降,磁盘压力增加,SQL语句响应变慢。

在LRU的基础上InnoDB做了一些优化!

image.png

  1. 第一张图就是大概按照5:3的比例,把链表分成了young 区和 old 区。访问2时,会把2提到最前面,其他数据依靠靠后一格
  2. 第二张图是写入一个新数据88时,他会把old区域的最后一个数8移出,然后把新数据88写入old区的第一个位置

处于 old 区域的数据页,每次被访问的时候都要做下面这个判断:

  • 若这个数据页在 LRU 链表中存在的时间超过了 1 秒,就把它移动到链表头部;
  • 如果这个数据页在 LRU 链表中存在的时间短于 1 秒,位置保持不变。1 秒这个时间,是由参数 innodb_old_blocks_time 控制的。其默认值是 1000,单位毫秒。

这个策略,就是为了处理类似全表扫描的操作量身定制的。我们可以看一下全表查询的逻辑

  1. 扫描过程中,需要新插入的数据页,都被放到 old 区域 ;
  2. 一个数据页里面有多条记录,这个数据页会被多次访问到,但由于是顺序扫描,这个数据页第一次被访问和最后一次被访问的时间间隔不会超过 1 秒,因此还是会被保留在 old 区域;
  3. 再继续扫描后续的数据,之前的这个数据页之后也不会再被访问到,于是始终没有机会移到链表头部(也就是 young 区域),很快就会被淘汰出去。

可以看到,这个策略最大的收益,就是在扫描这个大表的过程中,虽然也用到了 Buffer Pool,但是对 young 区域完全没有影响,从而保证了 Buffer Pool 响应正常业务的查询命中率。


对我的影响


知道了原理之后,再进行实现下一步方案的时候就类似于搭积木一样。

万丈高楼平地起,地基不搭好,上面再豪华,轻轻一晃就倒了


结尾


有些不懂的地方或者不对的地方,麻烦各位指出,一定修改优化!


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
19天前
|
canal 消息中间件 关系型数据库
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
115 4
|
6天前
|
存储 SQL 关系型数据库
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
MySQL如何进行分库分表、数据迁移?从相关概念、使用场景、拆分方式、分表字段选择、数据一致性校验等角度阐述MySQL数据库的分库分表方案。
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
|
6天前
|
存储 SQL 关系型数据库
【MySQL调优】如何进行MySQL调优?从参数、数据建模、索引、SQL语句等方向,三万字详细解读MySQL的性能优化方案(2024版)
MySQL调优主要分为三个步骤:监控报警、排查慢SQL、MySQL调优。 排查慢SQL:开启慢查询日志 、找出最慢的几条SQL、分析查询计划 。 MySQL调优: 基础优化:缓存优化、硬件优化、参数优化、定期清理垃圾、使用合适的存储引擎、读写分离、分库分表; 表设计优化:数据类型优化、冷热数据分表等。 索引优化:考虑索引失效的11个场景、遵循索引设计原则、连接查询优化、排序优化、深分页查询优化、覆盖索引、索引下推、用普通索引等。 SQL优化。
【MySQL调优】如何进行MySQL调优?从参数、数据建模、索引、SQL语句等方向,三万字详细解读MySQL的性能优化方案(2024版)
|
3天前
|
存储 关系型数据库 MySQL
技术解析:MySQL中取最新一条重复数据的方法
以上提供的两种方法都可以有效地从MySQL数据库中提取每个类别最新的重复数据。选择哪种方法取决于具体的使用场景和MySQL版本。子查询加分组的方法兼容性更好,适用于所有版本的MySQL;而窗口函数方法代码更简洁,执行效率可能更高,但需要MySQL 8.0及以上版本。在实际应用中,应根据数据量大小、查询性能需求以及MySQL版本等因素综合考虑,选择最合适的实现方案。
24 6
|
3天前
|
关系型数据库 MySQL 数据处理
针对MySQL亿级数据的高效插入策略与性能优化技巧
在处理MySQL亿级数据的高效插入和性能优化时,以上提到的策略和技巧可以显著提升数据处理速度,减少系统负担,并保持数据的稳定性和一致性。正确实施这些策略需要深入理解MySQL的工作原理和业务需求,以便做出最适合的配置调整。
27 6
|
22天前
|
SQL 存储 缓存
MySQL是如何保证数据不丢失的?
文章详细阐述了InnoDB存储引擎中Buffer Pool与DML操作的关系。在执行插入、更新或删除操作时,InnoDB为了减少磁盘I/O,会在Buffer Pool中缓存数据页进行操作,随后将更新后的“脏页”刷新至磁盘。为防止服务宕机导致数据丢失,InnoDB采用了日志先行(WAL)机制,通过将DML操作记录为Redo Log并异步刷新到磁盘,结合双写机制和合理的日志刷新策略,确保数据的持久性和一致性。尽管如此,仍需合理配置参数以平衡性能与数据安全性。
MySQL是如何保证数据不丢失的?
|
20天前
|
存储 关系型数据库 MySQL
|
20天前
|
SQL 关系型数据库 MySQL
SQL Server、MySQL、PostgreSQL:主流数据库SQL语法异同比较——深入探讨数据类型、分页查询、表创建与数据插入、函数和索引等关键语法差异,为跨数据库开发提供实用指导
【8月更文挑战第31天】SQL Server、MySQL和PostgreSQL是当今最流行的关系型数据库管理系统,均使用SQL作为查询语言,但在语法和功能实现上存在差异。本文将比较它们在数据类型、分页查询、创建和插入数据以及函数和索引等方面的异同,帮助开发者更好地理解和使用这些数据库。尽管它们共用SQL语言,但每个系统都有独特的语法规则,了解这些差异有助于提升开发效率和项目成功率。
89 0
|
3天前
|
NoSQL 关系型数据库 MySQL
微服务架构下的数据库选择:MySQL、PostgreSQL 还是 NoSQL?
在微服务架构中,数据库的选择至关重要。不同类型的数据库适用于不同的需求和场景。在本文章中,我们将深入探讨传统的关系型数据库(如 MySQL 和 PostgreSQL)与现代 NoSQL 数据库的优劣势,并分析在微服务架构下的最佳实践。
|
5天前
|
存储 SQL 关系型数据库
使用MySQL Workbench进行数据库备份
【9月更文挑战第13天】以下是使用MySQL Workbench进行数据库备份的步骤:启动软件后,通过“Database”菜单中的“管理连接”选项配置并选择要备份的数据库。随后,选择“数据导出”,确认导出的数据库及格式(推荐SQL格式),设置存储路径,点击“开始导出”。完成后,可在指定路径找到备份文件,建议定期备份并存储于安全位置。
65 11

热门文章

最新文章