hello everyone!
向大家求助一个使用keyby后导致数据倾斜的问题。
背景:使用flink streamAPI进行数据处理和提取,结果写入物理存储。 处理后会将数据量放大10倍左右。
考虑到其中有大量重复数据,使用flink状态根据id进行精确去重。去重前使用keyby id对数据进行分区。
问题:目前keyby之后会产生数据倾斜,切斜比例 高:低≈3:1, 各位大佬有什么好的方案处理这个问题吗?*来自志愿者整理的flink邮件归档
Flink SQL 里已经内置了很多解倾斜的方式,例如 local global 聚合。详见 [1],如果一定要使用 streaming api
可以参考该思路进行优化。
[1]
https://ci.apache.org/projects/flink/flink-docs-master/zh/docs/dev/table/tuning/#local-global-%e8%81%9a%e5%90%88*来自志愿者整理的FLINK邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。