5分钟搞懂MySQL半连接优化⭐️多种半连接的优化策略

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 5分钟搞懂MySQL半连接优化⭐️多种半连接的优化策略

前言

前文已经描述过MySQL的多种优化措施,如:回表的优化、索引合并的优化、连接的优化等

本篇文章来聊聊MySQL中子查询的半连接优化

在阅读本篇文章前,需要了解连接的原理、内连接等知识

不了解前置知识的同学可以查看MySQL连接的原理⭐️4种优化连接的手段性能提升240%🚀

为了更好的描述,我们使用班级、学生两张表

class表为班级表:class_num为班级的编码,class_name为班级名称

student表为学生表,其中包含学生信息,还包含class_num(该学生对应哪个班级编码)

班级表与学生表处于一对多的关系

想看官方文档的同学也可以点链接进入:子查询优化文档

子查询

来看这样一条SQL:

SELECT class.class_num, class.class_name
FROM class
INNER JOIN student
WHERE class.class_num = student.class_num;

在内连接中,关联条件on与where的作用一致,该SQL等同于以下SQL

SELECT class.class_num, class.class_name
FROM class
INNER JOIN student
on class.class_num = student.class_num;

对班级表和学生表进行内连接,其中关联条件为班级编码,查询出班级信息

如果有学生对应相同的班级,那么查询结果就会出现重复班级(比如:小菜和菜菜这两位同学都对应A班级)

假设优化器选择student表为驱动表,class表为被驱动表,则流程如下图

如果想要对结果去重,可以转换成以下子查询SQL

SELECT class_num, class_name
FROM class
WHERE class_num IN
(SELECT class_num FROM student);

在子查询SELECT class_num FROM student中会查询学生表中所有的班级编码

当小菜和菜菜都处于A班级时结果还是会出现重复,但是在外层查询使用in进行查询时,相当于作一次去重

image.png

从这个案例可以发现:在某些场景下,in的子查询可以被可以被优化为内连接,但是需要解决内连接的重复结果问题

物化

MySQL将子查询结果转换变成临时表称为物化,临时表称为物化表

物化默认是开启的,并不一定所有的子查询都会进行物化,基于成本评估是否物化也是默认开启的

materialization=on 开启物化

subquery_materialization_cost_based=on 开启基于成本评估是否物化

半连接

MySQL将上述这种子查询转化为内连接称为半连接

半连接是一种对子查询的优化,将子查询转换为内连接后,由优化器评估哪个表为驱动表的成本最低

使用半连接不仅需要将子查询转化为内连接,还需要对其进行去除重复记录

MySQL提供几种半连接策略进行去重,默认情况下开启所有半连接策略semijoin=on

FirstMatch

对于一种内层子查询与外层查询有关联的查询

select * 
from a 
where a.id in (select b.id from b where a.a1 = b.b1)

子查询表b中的查询条件需要外层查询表a相关信息

使用FirstMatch策略(firstmatch=on默认开启),循环查找

  1. 从外层表a中获取记录
  2. 拿到该记录的a1去表b中寻找满足条件(a1=b1)的记录
  3. 满足条件则放入结果并停止在表b中寻找(去重)
  4. 找不到则继续遍历外层表a

步骤1-3为循环

TablePullout

如果子查询结果不会出现重复,那么就不需要解决去重了

可以通过主键值或者唯一索引来构建子查询的结果,避免重复

在MySQL中通过主键或唯一索引避免重复的半连接策略称为table pullout

LooseScan

在我们的案例中,班级编码肯定不是唯一的,因此不能使用这种策略

当不能使用唯一值时,就需要通过其他手段进行去重

当物化表作为驱动表并且包含关联条件的二级索引时,可以使用 LooseScan 策略,loosescan=on 默认开启

当student表作为驱动表,并且拥有查询值class_num的二级索引,在索引中class_num就是有序的

image.png

当class_num相同时,只需要取第一条相同的记录进行关联,然后跳过后续相同的记录即可(图中第一条和第二天记录)

DuplicateWeedout

duplicateweedout=on 默认开启DuplicateWeedout半连接策略

当无法使用索引时,可以在结果集使用临时表记录来进行判断是否重复

image.png

当第三条记录(学生名为小菜)最后加入结果集时,判断tmp临时表中是否已存在class_num为1的值,已存在则不加入结果

因此第三条记录不会被加入结果集中

总结

将子查询的结果存储在临时表中的过程为物化,存储子查询结果的临时表为物化表

子查询在某些场景下可以转换成内连接,让优化器选择成本低的驱动表,这被称为半连接

使用半连接需要将结果进行去重,提供多种策略对其进行去重

FirstMatch通过循环外层查询,从外层查询获取记录,将记录拿到内层表中进行匹配,如果满足条件则放入结果集并停止在内层查找,后续继续循环外层查询,以此保证去重

TablePullout通过使用主键值或者唯一索引,让其记录没有重复值来保证去重

LooseScan通过物化表为驱动表并且拥有查询列的二级索引,保证查询列有序,当查询列相同时,拿第一条记录进行匹配,后续相同记录跳过,以此保证去重

DuplicateWeedout通过使用临时表记录结果,当出现重复时进行过滤不加入结果集,以此保证去重

最后(不要白嫖,一键三连求求拉~)

本篇文章被收入专栏 由点到线,由线到面,构建MySQL知识体系,感兴趣的同学可以持续关注喔

本篇文章笔记以及案例被收入 gitee-StudyJavagithub-StudyJava 感兴趣的同学可以stat下持续关注喔~

有什么问题可以在评论区交流,如果觉得菜菜写的不错,可以点赞、关注、收藏支持一下~

关注菜菜,分享更多干货,公众号:菜菜的后端私房菜

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
缓存 关系型数据库 MySQL
MySQL索引策略与查询性能调优实战
在实际应用中,需要根据具体的业务需求和查询模式,综合运用索引策略和查询性能调优方法,不断地测试和优化,以提高MySQL数据库的查询性能。
201 66
|
19天前
|
SQL 关系型数据库 MySQL
深入解析MySQL的EXPLAIN:指标详解与索引优化
MySQL 中的 `EXPLAIN` 语句用于分析和优化 SQL 查询,帮助你了解查询优化器的执行计划。本文详细介绍了 `EXPLAIN` 输出的各项指标,如 `id`、`select_type`、`table`、`type`、`key` 等,并提供了如何利用这些指标优化索引结构和 SQL 语句的具体方法。通过实战案例,展示了如何通过创建合适索引和调整查询语句来提升查询性能。
119 9
|
2月前
|
SQL 关系型数据库 MySQL
大厂面试官:聊下 MySQL 慢查询优化、索引优化?
MySQL慢查询优化、索引优化,是必知必备,大厂面试高频,本文深入详解,建议收藏。关注【mikechen的互联网架构】,10年+BAT架构经验分享。
大厂面试官:聊下 MySQL 慢查询优化、索引优化?
|
24天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
61 18
|
23天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
23 7
|
22天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化与慢查询优化:原理与实践
通过本文的介绍,希望您能够深入理解MySQL索引优化与慢查询优化的原理和实践方法,并在实际项目中灵活运用这些技术,提升数据库的整体性能。
58 5
|
2月前
|
SQL 关系型数据库 MySQL
MySQL慢查询优化、索引优化、以及表等优化详解
本文详细介绍了MySQL优化方案,包括索引优化、SQL慢查询优化和数据库表优化,帮助提升数据库性能。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
MySQL慢查询优化、索引优化、以及表等优化详解
|
24天前
|
缓存 NoSQL 关系型数据库
MySQL战记:Count( *)实现之谜与计数策略的选择
本文深入探讨了MySQL中`count(*)`的不同实现方式,特别是MyISAM和InnoDB引擎的区别,以及各种计数方法的性能比较。同时,文章分析了使用缓存系统(如Redis)与数据库保存计数的优劣,并强调了在高并发场景下保持数据一致性的挑战。
MySQL战记:Count( *)实现之谜与计数策略的选择
|
2月前
|
SQL 关系型数据库 MySQL
PHP与MySQL的高效协同开发策略####
本文深入探讨了PHP与MySQL在Web开发中的协同工作机制,通过优化配置、最佳实践和高级技巧,展示了如何提升数据库交互性能,确保数据安全,并促进代码可维护性。我们将从环境搭建讲起,逐步深入到查询优化、事务管理、安全防护及性能调优等核心环节,为开发者提供一套实战驱动的解决方案框架。 ####
|
2月前
|
关系型数据库 MySQL Java
MySQL索引优化与Java应用实践
【11月更文挑战第25天】在大数据量和高并发的业务场景下,MySQL数据库的索引优化是提升查询性能的关键。本文将深入探讨MySQL索引的多种类型、优化策略及其在Java应用中的实践,通过历史背景、业务场景、底层原理的介绍,并结合Java示例代码,帮助Java架构师更好地理解并应用这些技术。
57 2