开发者社区> 问答> 正文

spark hashParitioner的弊端是什么?

spark hashParitioner的弊端是什么?

展开
收起
茶什i 2019-10-29 10:57:33 2841 0
2 条回答
写回答
取消 提交回答
  • HashPartitioner确定分区的方式:partition = key.hashCode () % numPartitions 弊端:弊端是数据不均匀,容易导致数据倾斜,极端情况下某几个分区会拥有rdd的所有数据。

    2020-03-19 19:55:55
    赞同 展开评论 打赏
  • HashPartitioner分区的原理很简单,对于给定的key,计算其hashCode,并除于分区的个数取余,如果余数小于0,则用余数+分区的个数,最后返回的值就是这个key所属的分区ID;弊端是数据不均匀,容易导致数据倾斜,极端情况下某几个分区会拥有rdd的所有数据

    2019-10-30 14:48:13
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载