Fuxi DAG对传统shuffle的改进之处是什么?
离线大数据作业可能承担了主要的计算数据量,但流行的大数据计算系统中有非常多的场景是通过实时/准实时方式运行的,作业全程的数据流动发生在网络和内存,从而在有限的作业规模下取得极致的运行性能,如大家熟悉的 Spark, Flink 等系统。
Fuxi DAG 也提供了实时/准实时作业运行环境,传统的 shuffle 方式是通过网络直连,也能收到明显优于离线 shuffle 的性能。这种方式下,要求作业中所有节点都 要调度起来才能开始运行,限制了作业的规模。而实际上多数场景计算逻辑生成 shuffle 数据的速度不足以填满 shuffle 带宽,运行中的计算节点等待数据的现象明显,性能提升付出了资源浪费的代价。
我们将 shuffle service 应用到内存存储中,以替换 network 传输的 shuffle 方式。一方面,这种模式解耦了上下游调度,整个作业不再需要全部节点同时拉起;另一方面通过精确预测数据的读写速度并适时调度下游节点,可以取得与 network 传输shuffle 相当的作业性能,而资源消耗降低 50% 以上。这种 shuffle 方式还使得DAG 系统中多种运行时调整 DAG 的能力可以应用到实时/准实时作业中。
以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。