开发者社区> 问答> 正文

请教Flink中关于窗口的问题

我在一个job中有一些很大的数据(key的种类很少,但是单个key下的数据数量很多),基本要实现的是一个时间滑动窗口结束时,当某个key的数量大于一个固定值后,将该key下的所有原数据输出。我现在的方法是将key加后缀,然后keyBy做窗口,但是这个做完之后还是需要再次keyBy把数据还原回去,并且这个过程又将全量数据拉到了一个节点上,请问有没有一些别的解决方法?*来自志愿者整理的flink邮件归档

展开
收起
毛毛虫雨 2021-12-08 11:25:41 444 0
1 条回答
写回答
取消 提交回答
  • 你这个方法就可以的哈,至于第二个窗口又聚到一个结点的问题本身就是原始问题,基于你的方法缓解即可,第二层不可避免的。 你需要做的是调整合理的参数,使得第二层的数据虽然不均衡,但数据量以及足够低就可以了。 此外,还需要注意,当前key数量假设1w,加10随机就是10w,加100随机就是100w。这个key的膨胀也很严重的。最好的做法是仅针对高数据量的key分拆。*来自志愿者整理的flink邮件归档

    2021-12-08 16:19:32
    赞同 展开评论 打赏
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载