Flink按主键hash 发往不同分区，我同事没实现，说是负载严重不均衡，不知道还有没有其他办法？

Flink按主键hash 发往不同分区，我同事没实现，说是负载严重不均衡，不知道还有没有其他办法，就是0分区一直没数据，都发到2分区了，不知道怎么回事？

展开

收起

真的很搞笑 2023-12-03 20:42:10 459 版权

2 条回答

写回答

取消提交回答

sunrr
在Apache Flink中，KeyBy算子是一种根据指定Key将数据流分区的算子。在使用KeyBy算子时，需要指定一个或多个Key，Flink会根据这些Key将数据流分成不同的分区，以便并行处理。具体来说，Flink中的KeyBy底层其实就是通过Hash实现的，通过对Key的值进行Hash，再做一次murmurHash，取模运算。

你提到的问题，可能是由于Key的分布不均匀导致的。如果大部分的数据都分配到了同一个分区，那么这个分区的处理压力就会非常大，从而导致负载严重不均衡。为了解决这个问题，你可以尝试以下方法：
1. 调整并行度：你可以根据实际情况调整并行度，使得每个并行度处理的数据量相对均匀。例如，你可以使用取模运算来平衡Kafka partition与并行度关系。
2. 使用自定义分区器：如果默认的分区方式不能满足你的需求，你也可以实现自己的分区器，根据实际业务需求来分配数据到不同的分区。
3. 优化任务调度：你可以尝试优化任务调度策略，例如为ExecutionSlotSharingGroup申请slot时先对其按包含Task个数排序，优先调度Task个数多的分组。
2023-12-04 16:18:06

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在Apache Flink中，数据分区不均衡的问题可能是由于KeyBy算子实现的问题。Flink中的KeyBy底层其实就是通过Hash实现的，通过对Key的值进行Hash，再做一次murmurHash，取模运算。因此，如果数据具有相同的key将一定去往同一个分组和分区，但是同一分区中的数据不一定属于同一组。

为了解决这个问题，你可以尝试以下方法：
1. 对Key值进行转换，确保每个Key能分到指定的SubTask中执行。例如，你可以验证int类型key转换到分区的代码是否一致。
2. 使用Flink的StreamPartitioner接口，它决定了在实际运行中的数据流分发模式，将数据切分交给Task计算，每个Task负责计算一部分数据流。所有的数据分区器都实现了ChannelSelector接口，该接口中定义了负载均衡选择行为。
3. 使用随机分区（shuffle）的方法，将数据随机地分配到下游算子的并行任务中去。这种方式可以将流中的数据随机打乱，均匀地传递到下游任务分区。
2023-12-04 13:35:15

赞同展开评论

Flink按主键hash 发往不同分区，我同事没实现，说是负载严重不均衡，不知道还有没有其他办法？

实时计算 Flink

相关文章

热门讨论

热门文章