备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

Fuxi DAG对传统shuffle的改进之处是什么？

已解决

Fuxi DAG对传统shuffle的改进之处是什么？

展开

收起

游客lmkkns5ck6auu 2022-08-10 10:59:54 660 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

离线大数据作业可能承担了主要的计算数据量，但流行的大数据计算系统中有非常多的场景是通过实时/准实时方式运行的，作业全程的数据流动发生在网络和内存，从而在有限的作业规模下取得极致的运行性能，如大家熟悉的 Spark, Flink 等系统。

Fuxi DAG 也提供了实时/准实时作业运行环境，传统的 shuffle 方式是通过网络直连，也能收到明显优于离线 shuffle 的性能。这种方式下，要求作业中所有节点都要调度起来才能开始运行，限制了作业的规模。而实际上多数场景计算逻辑生成 shuffle 数据的速度不足以填满 shuffle 带宽，运行中的计算节点等待数据的现象明显，性能提升付出了资源浪费的代价。

我们将 shuffle service 应用到内存存储中，以替换 network 传输的 shuffle 方式。一方面，这种模式解耦了上下游调度，整个作业不再需要全部节点同时拉起；另一方面通过精确预测数据的读写速度并适时调度下游节点，可以取得与 network 传输shuffle 相当的作业性能，而资源消耗降低 50% 以上。这种 shuffle 方式还使得DAG 系统中多种运行时调整 DAG 的能力可以应用到实时/准实时作业中。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 18:00:50

赞同展开评论

问答分类：

资源调度云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83502

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3616

1

0

sql server的用户名和密码怎么查啊？

37446

21

0

this xml file does not appear to have any style in

51783

10

0

重启Docker后报错：Error response from daemon

2235

0

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60877

32

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3606

1

0

OSS的endpoint如何查看

37451

6

0

阿里云服务器如何重置系统？

24695

4

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

133454

28

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347744

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

前端UI框架介绍mpvue WeUI Express Koa NPM YARN

AI计算机视觉在公共安全领域的实践：从“滑倒重灾区”看毫秒级跌倒预警技术拆解

云故事探索第18期｜易点天下：AI Agent驱动全球智能营销，阿里云“全球一张网”筑牢中国企业出海底座

归一化技术

JMeter自搭与商用压测平台：效率成本对比及最优方案推荐

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请教个大数据计算MaxCompute问题，报这个错误是啥情况？

Dataworks中MaxCompute表怎么创建唯一索引啊?

请问大家一般而言，在做技术选型的时候，会怎么选择 EMR 和 MaxCopmute ？

sparksql中cte物化方式是怎样的

在大数据计算MaxCompute中，这要怎么修改字段类型？

大数据计算MaxCompute中maxcompute spark如何读取 oss 上面的文件？

MaxCompute在d2中使用python3调用阿里云的通义千问api接口，报错如下：貌似无法？

大数据计算MaxCompute的group by 时合并array , 用什么方法？

阿里云一个CU对应多少cpu和内存?

展开全部

MaxCompute执行作业慢的原因排查

MaxCompute上如何处理非结构化数据

阿里云 MaxCompute 2019-11 月刊

美柚与MaxCompute数据同步架构说明

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

阿里云大数据计算平台的自动化、精细化运维之路

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

数据库工程师快速上手MaxCompute进行ETL

MaxCompute 项目子账号做权限管理

细数阿里云服务器的十二种典型应用场景

展开全部

还有其他疑问?