开发者社区> 问答> 正文

checkpoint stage size的问题

各位好,我的项目的流计算模型source(kafka)->filter->keyby->window->aggregate->sink(hbase),现在发现window的subtask的checkpoint的stage size越来越大,请问是什么原因啊? *来自志愿者整理的flink邮件归档

展开
收起
雪哥哥 2021-12-07 15:53:40 692 0
1 条回答
写回答
取消 提交回答
  • 你好

    这个问题问得有点稍微宽泛,因为并没有描述你所认为的checkpoint state size越来越大的周期。checkpoint state size变大有几个原因:

    1. 上游数据量增大。
    2. window设置时间较长,尚未触发,导致window内积攒的数据比较大。
    3. window的类型决定了所需要存储的state size较大。

    可以参考社区的文档[1] window state的存储空间问题。另外,在上游数据量没有显著变化的时候,若干窗口周期后的checkpoint state size应该是比较稳定的,由于未明确你的观察周期,所以只能给出比较宽泛的建议。

    [1] https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/operators/windows.html#useful-state-size-considerations*来自志愿者整理的flink

    2021-12-07 16:23:35
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
An Online Spark Pipeline 立即下载
\"Clipper,A Low-Latency Online Prediction Serving System\" 立即下载
Using Hadoop to build a Data Quality Service for both real-time and batch data 立即下载