在其他 OLAP 或 MPP 系统中,也有类似组件被称为 Shuffle 或Exchange,在MaxCompute SQL 中该组件涉及的功能更加完善,性能更优,主要包含但不限于 分布式运行的 Task 之间数据序列化,压缩,读写传输,分组合并,排序等操作。
SQL 中一些耗时算子的分布式实现基本都需要用到这个模块,比如 join,groupby,window 等等,因此它绝对是 CPU,memory,IO 等资源的消耗大户,在大部分作业中运行时间占比整个 sql 运行时间 30% 以上,一些大规模作业甚至可以达到 60% 以上,这对于 MaxCompute SQL 日均近千万任务量,日均处理数据接近 EB 级的服务来说,性能每提升 1 个多百分点,节省的机器资源都是以上千台计,因此对该组件的持续重构优化一直是 MaxCompute SQL 团队性能提升指标的重中之重。
2019 年双十一应用的 SLX 就是完全重写的高性能 Streamline 架构。
以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。