慢SQL是如何拖垮数据库的?(2)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 慢SQL是如何拖垮数据库的?

四、深入分析原理

带着以上疑问,结合以下相关知识,一层层剥开深层次的原因


4.1、慢SQL分析

CONCAT(CRM_ORG_ID, '#', CRM_ROLE_ID) = '123#abc'

该SQL由工具直接从Oracle翻译过来的
  • 虽然两个拼接的字段各自都有索引,但是使用函数后,MySQL是不会使用索引的,退化为了普通查询

image.png

  • 由于表数据量较大,全表40W+数据,导致扫描行数很多,平均扫描16W行、逻辑读38W行,执行2s左右

4.2、业务代码排查

  • 故障后第二天,有个别销售反馈页面打开较慢,有好几秒,怀疑是止血时的操作是切到了tair而不是回滚到本地缓存逻辑导致,不过此时还是有疑问,为何一个页面会慢好几秒呢,听起来就像是一次请求大量循环调用缓存导致;
  • 代理账号经定位,确实是如上假设,此处的业务代码逻辑为查找组织下的指定角色,会递归遍历所有子组织,最差情况下,一次页面请求,会有1000+次访问缓存/DB;
  • 结合数据库当时慢SQL趋势,符合我们的猜测,虽然业务流量不大,但是每次请求会放大1000倍,最终导致问题SQL执行了1.5W+次,同时同下图可以看到,其他正常SQL由于系统忙被排队,响应也变慢,而这些基本都是基础用户组织权限相关,所以造成了业务系统不可用;

image.png

4.3、druid连接池?数据库连接池?

  • 上文背景处有说道,应用连接池配置的为15,切应用流量本身很小,那么是什么原因导致整个库都被拖垮呢;
  • 这里要从一次SQL请求的链路说起,如下图所示:
  • 应用层通过tddl访问MySQL数据源,其中连接管理是在atom层,利用druid进行连接池的管理,我们平时所说的tddl线程池,指的就是druid连接池,这个配置维护在diamond中,一般有dba来设置;
  • 对于我们的应用来说,单个应用7台机器,maxPoolSize配置为15,数据库是单库单表,则单个应用的最大连接数为1*15,所有应用连接数为7*1*15=105;

image.png

  • 注意以上只是应用维度的连接数推导,正常工作下连接池也不会达到max的,如果达到了,TDDL会抛出4103.ERR_ATOM_CONNECTION_POOL_FULL,应用数据库连接池满错误,与第一节现象吻合;
  • 那么问题来了,这么几个连接,为何打垮整个数据库呢;看数据库的最大连接数可是有8000;

image.png

  • 经与DBA同学咨询,了解到了数据库server端的内部处理线程池与druid没有任何关系,两者是两个层面的东西,所以需要研究下server端的处理逻辑;
  • 同时这里提一点,由于我们很多应用都在连接数据库,所以需要评估下数据库的最大连接数是否可以满足这么多应用的机器的链接,即应用服务器总数 * 一个数据库实例上的分库数(atom) * maxPoolSize < max_user_connections;


4.4、MySQL数据库性能分析

image.png

image.png

  • 如上图所示,案发时,有一个明显的现象,数据库CPU被打满,同时活跃连接数增长、数据库rt增长:
  • 活跃连接数,当前数据库中有多少会话正在执行SQL,是衡量数据库繁忙程度的指标;
  • 根据执行时间来判断,阈值一般很低,正常情况下一条SQL执行很快,活跃会话很低;
  • 经过与DBA同学请教,结合慢SQL明细,确定问题就是慢SQL执行,大量逻辑读导致的;
  • server端的链路还原如下:
  • 针对数据库实例,出于保护,引入了线程池,通过参数进行控制,默认300个左右;
  • 正常情况下,由于SQL执行很快,活跃会话不会很高;
  • 慢SQL情况下,由于每一条慢SQL都会逻辑读30W+行,执行2s+,导致线程变慢,线程池里的线程被用尽,也即活跃会话数上升,如上图所示,逼近280;
  • 数据库CPU都在执行慢SQL的逻辑读和排序等操作、活跃会话数大幅增长,数据库rt飙升,导致其他应用请求无法与数据库建立新的会话,应用请求超时,TDDL层进入fast fail状态,抛出4201.ERR_GROUP_NO_ATOM_AVAILABLE异常;


4.5、慢SQL是如何导致CPU打满的

  • 上面分析中,有一个核心的细节,就是慢SQL逻辑读太多,最终导致CPU打满了,这里有个疑问,读写不是io操作吗,为什么会使CPU load高呢,研究了一下innodb的结构:
  • 如下图所示,在innodb存储层,维护了一个缓存数据和索引信息到内存的存储区叫做buffer pool,他会将最近访问的数据缓存到缓冲区;
  • 我们说的逻辑读:也就是SQL在同一时间内需要访问多少个缓冲区的内存页;
  • 而与之相对应的,物理读则是同一时间内需要从磁盘获取多少个数据块;
  • 理想情况下,buffer pool size应该设置的尽可能大,这样就可以减少进程的额外分页,当buffer pool size设置的足够大的时候,整个数据库就相当于存储在内存当中,当读取一次数据到buffer pool size以后,后续的读操作就不用在进行磁盘读;

image.png

  • 通过现场的cloud dba监控也可以发现,innoDB缓存命中率为100%,不存在物理读的情况,也即可以认为数据库的高频数据都已全量存在于内存中了,通过查看数据库容量也可以佐证这个观点,数据+索引大小6G左右,未达到数据库实例配置的8G,所以实际情况是数据都存在于内存中了,并不会有多余的IO操作,CPU的性能全部都消耗在了大量的内存数据扫表(逻辑读)中 - 看现场平均扫描16w行数据;
  • 这个结论让我不禁想到了一个类似的场景,在线上vi打开服务器中大文件导致load飙高,应用不可用的问题。vi在将文件原样加载到内存后,还会将其转换为内部结构(线条,单词等),使用内部脚本语言执行语法高亮显示等等,所有这些都会消耗内存和CPU时间。

image.png

  • 虽然慢SQL模板只一个,QPS也不是特别高(现场峰值100左右,平均20左右),但是由于线程池机制,快速将活跃会话(线程池)占满;
  • 由于业务QPS水位在3000左右,线程池打满后,后续即使是索引甚至是主键查询的正常SQL,也都在排队了,最终导致了雪崩效应;


4.6、关于数据库升配

  • 在优化慢SQL的同时,考虑到数据库实例配置较低(8core 8G 100G),也尝试与DBA相关同学沟通升级配置,经过多次讨论,结论为升配无用,只能优化慢SQL或者加缓存,以下配置核心的三个维度进行说明;
  • CPU:目前实例配置为8核,但是MySQL集群的CPU隔离是放开的,最高可用到物理机的64核,所以无需升配;
  • 内存:目前实例配置为8G,内存这块直接影响的就是上述介绍的buffer pool,如4.5小结分析,库总数据量都没有达到8G,所以无需进行内存升级;
  • 磁盘:目前实例配置为100G,以目前业务发展速度也已够用;


五、总结

  • 直接原因:应用升级二方库中本地缓存代码被删除;慢SQL没有优化;同时业务逻辑复杂,嵌套循环导致快速雪崩;
  • 根本原因:慢SQL导致数据库CPU打满,活跃连接数突增,rt上升,后续SQL请求都在排队,高QPS场景下,最终导致雪崩效应,TDDL fast fail,抛出数据库不可用异常;
  • 两个池的知识点:TDDL中的druid插件维护的是业务应用层与数据库连接的连接池;MySQL服务端 也会通过线程池技术,处理会话,默认300左右,一般情况下SQL执行非常快,所以活跃线程/活跃会话非常低;
  • 快速定位数据库问题的思路 -- 熟练掌握cloud dba的性能分析工具:
  • 判断数据库是否正常:RT - 响应时间是否变大了;活跃会话 - 数据库当前是否拥堵了;
  • QPS:是否有突发大流量;
  • 检查执行的SQL:如果逻辑读、DML大幅增长,则基本可以锁定该SQL出了问题。

参考资料:

关于MySQL线程池,这也许是目前最全面的实用帖!:https://dbaplus.cn/news-11-1989-1.html

当我有16 GB RAM时,为什么Vim无法打开100 MB文本文件?:https://qastack.cn/unix/139254/why-cant-vim-open-a-100-mb-text-file-when-i-have-16-gb-ram

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
28天前
|
SQL 开发框架 .NET
ASP.NET连接SQL数据库:详细步骤与最佳实践指南ali01n.xinmi1009fan.com
随着Web开发技术的不断进步,ASP.NET已成为一种非常流行的Web应用程序开发框架。在ASP.NET项目中,我们经常需要与数据库进行交互,特别是SQL数据库。本文将详细介绍如何在ASP.NET项目中连接SQL数据库,并提供最佳实践指南以确保开发过程的稳定性和效率。一、准备工作在开始之前,请确保您
132 3
|
11天前
|
SQL 数据采集 监控
局域网监控电脑屏幕软件:PL/SQL 实现的数据库关联监控
在当今网络环境中,基于PL/SQL的局域网监控系统对于企业和机构的信息安全至关重要。该系统包括屏幕数据采集、数据处理与分析、数据库关联与存储三个核心模块,能够提供全面而准确的监控信息,帮助管理者有效监督局域网内的电脑使用情况。
13 2
|
16天前
|
SQL JSON Java
没有数据库也能用 SQL
SPL(Structured Process Language)是一款开源软件,允许用户直接对CSV、XLS等文件进行SQL查询,无需将数据导入数据库。它提供了标准的JDBC驱动,支持复杂的SQL操作,如JOIN、子查询和WITH语句,还能处理非标准格式的文件和JSON数据。SPL不仅简化了数据查询,还提供了强大的计算能力和友好的IDE,适用于多种数据源的混合计算。
|
29天前
|
SQL 监控 数据库
慢SQL对数据库写入性能的影响及优化技巧
在数据库管理系统中,慢SQL(即执行缓慢的SQL语句)不仅会影响查询性能,还可能对数据库的写入性能产生显著的不利影响
|
17天前
|
SQL 数据库
SQL数据库基础语法入门
[link](http://www.vvo.net.cn/post/082935.html)
|
24天前
|
SQL 存储 关系型数据库
mysql 数据库空间统计sql
mysql 数据库空间统计sql
42 0
|
28天前
|
SQL 存储 监控
串口调试助手连接SQL数据库的技巧与方法
串口调试助手是电子工程师和软件开发人员常用的工具,它能够帮助用户进行串口通信的调试和数据分析
|
28天前
|
SQL 存储 数据采集
如何把问卷录入SQL数据库
将问卷数据录入SQL数据库是一个涉及数据收集、处理和存储的过程
|
28天前
|
SQL 开发框架 .NET
ASP.NET连接SQL数据库:实现过程与关键细节解析an3.021-6232.com
随着互联网技术的快速发展,ASP.NET作为一种广泛使用的服务器端开发技术,其与数据库的交互操作成为了应用开发中的重要环节。本文将详细介绍在ASP.NET中如何连接SQL数据库,包括连接的基本概念、实现步骤、关键代码示例以及常见问题的解决方案。由于篇幅限制,本文不能保证达到完整的2000字,但会确保
|
2天前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
13 4
下一篇
无影云桌面