SQL调优指南—SQL调优进阶—排序优化和执行

简介: 本文介绍如何排序(Order-by)算子,以达到减少数据传输量和提高执行效率的效果。

基本概念

排序操作(Sort)语义为按照指定的ORDER BY列对输入进行排序。本文介绍均为不下推的Sort的算子的实现。如果已被下推到LogicalView中,则由存储层MySQL来选择执行方式。

排序(Sort)

PolarDB-X中的排序算子主要包括 MemSort、TopN,以及 MergeSort。

MemSort

PolarDB-X中的通用的排序实现为MemSort算子,即内存中运行快速排序(Quick Sort)算法。下面是一个用到MemSort算子的例子:


> explain select t1.name from t1 join t2 on t1.id = t2.id order by t1.name,t2.name;
Project(name="name")
  MemSort(sort="name ASC,name0 ASC")
    Project(name="name", name0="name0")
      BKAJoin(condition="id = id", type="inner")
        Gather(concurrent=true)
          LogicalView(tables="t1", shardCount=2, sql="SELECT `id`, `name` FROM `t1` AS `t1`")
        Gather(concurrent=true)
          LogicalView(tables="t2_[0-3]", shardCount=4, sql="SELECT `id`, `name` FROM `t2` AS `t2` WHERE (`id` IN ('?'))")

TopN

当SQL中ORDER BY和LIMIT一起出现时,Sort算子和Limit算子会合并成TopN算子。

TopN算子维护一个最大或最小堆,按照排序键的值,堆中始终保留最大或最小的N行数据。当处理完全部的输入数据时,堆中留下的N个行(或小于N个)就是需要的结果。


> explain select t1.name from t1 join t2 on t1.id = t2.id order by t1.name,t2.name limit 10;

Project(name="name")
TopN(sort="name ASC,name0 ASC", offset=0, fetch=?0)
Project(name="name", name0="name0")
BKAJoin(condition="id = id", type="inner")
Gather(concurrent=true)
LogicalView(tables="t1", shardCount=2, sql="SELECT `id`, `name` FROM `t1` AS `t1`")
Gather(concurrent=true)
LogicalView(tables="t2_[0-3]", shardCount=4, sql="SELECT `id`, `name` FROM `t2` AS `t2` WHERE (`id` IN ('?'))")

MergeSort

通常,只要语义允许,SQL中的排序操作会被下推到MySQL上执行,而PolarDB-X执行层只做最后的归并操作,即MergeSort。严格来说,MergeSort 不仅仅是排序,更是一种数据重分布算子(类似 Gather)。下面的SQL是对t1表进行排序,经过PolarDB-X查询优化器的优化,Sort算子被下推至各个MySQL分片中执行,最终只在上层做归并操作。


> explain select name from t1 order by name;
MergeSort(sort="name ASC")
LogicalView(tables="t1", shardCount=2, sql="SELECT `name` FROM `t1` AS `t1` ORDER BY `name`")

相比 MemSort,MergeSort 算法可以减少PolarDB-X层的内存消耗,并充分利用 MySQL 层的计算能力。

相关文章
|
监控 数据可视化 项目管理
CM模式是什么?如何应用?
CM 模式(Construction Management)即建设管理模式,起源于20世纪60年代的美国,通过专业的建设管理团队在项目早期介入,优化设计方案,协调各方资源,有效提升项目质量和进度控制。该模式已广泛应用于各类建筑工程,并不断创新发展,适应数字化、绿色建筑及国际化需求。未来,CM模式将继续推动建筑行业的进步。
1651 2
|
SQL 存储 关系型数据库
后端技术在现代软件开发中的重要性
本文将深入探讨后端技术在现代软件开发中的关键角色和影响。我们将从后端技术的基本概念入手,逐步解析其在实际项目中的应用,最终展示其对整个软件生态系统的重要性。
420 5
|
定位技术
数据收集方法
数据收集方法
1015 1
|
安全 数据库
【Debian】配置aide入侵检测服务
基于debian系统。aide主要功能检测系统文件,当系统文件发生变化,如/etc/passwd文件出现差异,那么aide将会认为系统遭受入侵被增添用户
2469 0
|
存储 算法 NoSQL
分布式事务两阶段提交和三阶段提交有什么区别?
分布式事务两阶段提交和三阶段提交有什么区别?
1211 0
分布式事务两阶段提交和三阶段提交有什么区别?
|
存储 Java 关系型数据库
Sonar环境搭建
Sonar环境搭建
464 0
Sonar环境搭建
|
弹性计算 数据安全/隐私保护 云计算
购买实例 | 学习笔记
快速学习购买实例
购买实例 | 学习笔记
|
安全 物联网安全
国内首个:阿里云Link Security通过等保2.0(第三级)物联网安全评估
阿里云Link Security(阿里云IoT安全平台)成功通过基于等保2.0要求(第三级)的物联网安全评估,成为全国首个通过的物联网安全服务平台!
国内首个:阿里云Link Security通过等保2.0(第三级)物联网安全评估
|
SQL 弹性计算 运维
基于HBR的云上统一备份
混合云备份(简称HBR)是一种简单易用且高性价比的在线备份服务,可以为阿里云ECS,NAS,OSS以及自建机房内的各类数据提供安全,高效的保护。
1048 0
基于HBR的云上统一备份
Py之pyglet:Python之pyglet库的简介、安装、使用详细攻略
Py之pyglet:Python之pyglet库的简介、安装、使用详细攻略
Py之pyglet:Python之pyglet库的简介、安装、使用详细攻略