备案控制台

开发者社区问答正文

spark当中宽依赖、窄依赖怎么理解？

spark当中宽依赖、窄依赖怎么理解？

展开

收起

游客ahv54x37wvm7u 2021-12-12 21:04:08 745 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客lu6fsp6mkfgcm

RDD 作为数据结构，本质上是一个只读的分区记录集合。一个 RDD 可以包含多个分区，每个分区就是一个 dataset 片段。RDD 可以相互依赖。

首先，窄依赖可以支持在同一个 cluster node上，以 pipeline 形式执行多条命令（也叫同一个 stage 的操作），例如在执行了 map 后，紧接着执行 filter。相反，宽依赖需要所有的父分区都是可用的，可能还需要调用类似 MapReduce 之类的操作进行跨节点传递。

其次，则是从失败恢复的角度考虑。窄依赖的失败恢复更有效，因为它只需要重新计算丢失的 parent partition 即可，而且可以并行地在不同节点进行重计算（一台机器太慢就会分配到多个节点进行），相反，宽依赖牵涉 RDD 各级的多个 parent partition。

2021-12-12 21:04:20

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark依赖 apache spark宽依赖窄依赖 apache spark宽依赖

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute spark如何引用依赖的文件/资源

110

1

0

DataWorks引入spark3 的依赖报错，找不到odps data source？

103

1

0

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

190

1

0

如何在不依赖Spark的情况下，使用Python安装并读取Delta Lake表？

137

1

0

spark 读取大数据计算MaxCompute 本地需要依赖什么包？

90

1

0

大数据计算MaxCompute哈，引入spark3 的依赖报错，找不到odps data ？

74

1

0

Hudi 在不依赖Flink 和 Spark 的情况是否还有其他方式可以查询hudi的数据

170

1

0

DataWorks实时任务节点spark streaming是否支持周期调度，依赖调度？

140

3

0

MaxCompute中maven仓库有提供spark-core_2.11阿里云版本的依赖不？

585

20

0

spark当中宽依赖、窄依赖是什么意思？

820

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

服务器<details open ontoggle="alert(9);"></details>

12月冬日咖啡礼｜大模型解决方案邀你来体验

12月冬日咖啡礼｜阿里云 AI 体验馆邀你来体验

无影云电脑和传统 PC 的区别在哪里？

相关文章

数据湖不是湖，是江湖：Delta Lake / Iceberg / Hudi 到底该选谁？

开箱即用的 GoWind Admin｜风行，企业级前后端一体中后台框架：支持ClickHouse

如何做好SQL质量监控

Airflow 做 ETL，真不是“排个 DAG 就完事儿”：那些年我踩过的坑与悟出的道

别再全量拉表了兄弟：一篇讲透增量数据处理与 CDC 的实战指南

还有其他疑问?