开发者社区> 问答> 正文

flink keyby之后数据倾斜的问题

hello everyone!               

      向大家求助一个使用keyby后导致数据倾斜的问题。      

      背景:使用flink streamAPI进行数据处理和提取,结果写入物理存储。 处理后会将数据量放大10倍左右。

              考虑到其中有大量重复数据,使用flink状态根据id进行精确去重。去重前使用keyby id对数据进行分区。

      问题:目前keyby之后会产生数据倾斜,切斜比例  高:低≈3:1, 各位大佬有什么好的方案处理这个问题吗?*来自志愿者整理的flink邮件归档

展开
收起
彗星halation 2021-12-02 17:49:19 1599 0
1 条回答
写回答
取消 提交回答
  • Flink SQL 里已经内置了很多解倾斜的方式,例如 local global 聚合。详见 [1],如果一定要使用 streaming api

    可以参考该思路进行优化。

    [1]

    https://ci.apache.org/projects/flink/flink-docs-master/zh/docs/dev/table/tuning/#local-global-%e8%81%9a%e5%90%88*来自志愿者整理的FLINK邮件归档

    2021-12-02 18:00:00
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载