开发者社区> 问答> 正文

对于Spark中的数据倾斜问题你有什么好的方案?

对于Spark中的数据倾斜问题你有什么好的方案?

展开
收起
茶什i 2019-10-28 16:05:33 1427 0
1 条回答
写回答
取消 提交回答
  • 1)前提是定位数据倾斜,是OOM了,还是任务执行缓慢,看日志,看WebUI 2)解决方法,有多个方面 · 避免不必要的shuffle,如使用广播小表的方式,将reduce-side-join提升为map-side-join ·分拆发生数据倾斜的记录,分成几个部分进行,然后合并join后的结果 ·改变并行度,可能并行度太少了,导致个别task数据压力大 ·两阶段聚合,先局部聚合,再全局聚合 ·自定义paritioner,分散key的分布,使其更加均匀 详细解决方案参考博文《Spark数据倾斜优化方法》

    2019-10-28 16:28:40
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载