开发者社区> 问答> 正文

从high-level的角度来看hadoop和spark的shuffle有什么差异?

从high-level的角度来看hadoop和spark的shuffle有什么差异?

展开
收起
芯在这 2021-12-06 01:05:24 436 0
1 条回答
写回答
取消 提交回答
  • 从high-level的角度来看,两者并没有大的差别。都是将mapper(Spark中是ShuffleMapTask)的输出进行partition,不同的partition送到不同的reducer(Spark里的reducer可能是下一个stage的ShuffleMapTask,也可能是ResultTask)。Reducer以内存做缓冲区,边shuffle边aggregate数据,等数据aggregate好之后再进行reduce()(Spark里可能是后续的一系列操作)

    2021-12-06 01:05:41
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载

相关实验场景

更多