备案控制台

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

Shuffle Service 的容错机制是什么？

已解决

Shuffle Service 的容错机制是什么？

展开

收起

游客lmkkns5ck6auu 2022-08-10 10:59:08 290 0

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

Shuffle service 的归集思想在公司内外都有不同的工作展现类似的思想，但都限于 “跑分”和小范围使用。因为这种模式对于各环节的错误天生处理困难。

以 shuffle agent 文件丢失/损坏是大数据作业的常见问题为例，传统的文件系统shuffle 可以直接定位到出错的数据文件来自哪个 mapper，只要重跑这个 mapper 即可恢复。但在前述 shuffle service 流程中，由于 shuffle agent 输出的 shuffle这个文件包含了来自所有 mapper 的 shuffle 数据，损坏文件的重新生成需要以重跑所有 mapper 为代价。如果这种机制应用于所有线上作业，显然是不可接受的。设计了数据双副本机制解决了这个问题，使得大多数通常情况下 reducer 可以读取到高效的 agent 生成的数据，而当少数 agent 数据丢失的情况，可以读取备份数据，备份数据的重新生成只依赖特定的上游 mapper。

具体来说，mapper 产生的每份 shuffle 数据除了发送给对于 shuffle agent 外，也会按照与传统文件系统 shuffle 数据类似的格式，在本地写一个备份。按前面所述，这份数据写的代价较小但读取的性能不佳，但由于仅在 shuffle agent 那个副本出错时才会读到备份数据，所以对作业整体性能影响很小，也不会引起集群级别的磁盘压力升高。

有效的容错机制使得 shuffle service 相对于文件系统 shuffle，在提供更好的作业性能的同时，因 shuffle 数据出错的 task 重试比例降低了一个数量级，给线上全面投入使用打好了稳定性基础。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 18:00:32

赞同展开评论打赏

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

请问nacos集群环境，同一个service中不同节点的instance存储顺序是一致的吗？

377

0

0

Shuffle service模式的特点是是什么

273

1

0

Shuffle Service 主要功能有哪些？

498

1

0

Shuffle Service是什么？

674

1

0

Remote Shuffle Service架构可总结为哪三点？

460

1

0

Dubbo集群容错方案有几种？默认是哪种？

593

1

0

Spark 当中容错方法是什么？

861

1

0

Spark的高可用和容错是什么意思？

891

1

0

Indexing Service是怎样实现的?

682

1

0

Apache中Flink分布式场景的状态容错是怎么实现容错恢复呢？

983

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

热门讨论

热门文章

MaxCompute中执行SQL报错ODPS-0130071

Maxcompute中如何处理ODPS-0130071:Semantic analysis exce

遇到Maxcompute中出现下面问题怎么办

大数据计算MaxComputesr, adb指的啥？

Maxcompute中如何处理expect equality expression (i.e., o

MaxCompute sql任务报错ODPS-0130161

大数据计算MaxCompute ODPS-0010000:System internal这个怎么办？

DataWorks失败：ODPS-0130071:[0,0]语义分析异常-物理计划生成失败？

百问求答（5）MaxCompute专场！回答问题赢SKG颈椎按摩仪等好礼

sparksql中cte物化方式是怎样的

展开全部

阿里云开源离线同步工具DataX3.0介绍

盘古：阿里云飞天分布式存储系统设计深度解析

美柚：最懂女性App背后的混合云架构与大数据服务

优酷背后的大数据秘密

2017杭州云栖大会FAQ（持续更新中）

【转载】时隔一年多，我又用起了 Superset

干货：解码OneData，阿里的数仓之路。

MaxCompute常见错误汇总（更新ing）

品《阿里巴巴大数据实践-大数据之路》一书(下)

展开全部

相关电子书

更多

Kubernetes在大规模场景下的service性能优化实战 立即下载

低代码开发师（初级）实战教程 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载