开发者社区> 问答> 正文

MapReduce中减少数据倾斜的方法是什么?

MapReduce中减少数据倾斜的方法是什么?

展开
收起
真的很搞笑 2021-12-05 01:09:20 312 0
1 条回答
写回答
取消 提交回答
  • ①抽样和范围分区 可以通过对原始数据进行抽样得到的结果集来预设分区边界值。 ②自定义分区 基于输出键的背景知识进行自定义分区。例如,如果 map 输出键的单词来源于一本书。且其中某几个专业词汇较多。那么就可以自定义分区将这这些专业词汇发送给固定的一部分reduce 实例。而将其他的都发送给剩余的 reduce 实例。 ③Combine 使用 Combine 可以大量地减小数据倾斜。在可能的情况下,combine 的目的就是提前聚合并精简数据。 ④采用 Map Join,尽量避免 Reduce Join。

    2021-12-05 01:09:34
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
MaxCompute SQL计算成本调优以及优化方法 立即下载
GC优化利器 - HBase2.0全链路offheap 立即下载
HBase 吞吐量提升实践 立即下载