开发者社区> 问答> 正文

interval join 时checkpoint失败怎么办?

各位好,

两个流进行interval join,时间窗口是 -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager

log中的报错信息为:

2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint.

CheckpointCoordinator - Checkpoint 143 of job

ee4114a1c5413bd02a68b1165090578e expired before completing.

无其他报错信息,最大checkpoint时间为10min;

flink版本:1.9.0

checkpooint配置信息为:

env.enableCheckpointing(600000);

env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);

env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000);

env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

各位大佬能否给些排查建议呢?*来自志愿者整理的flink邮件归档

展开
收起
小阿怪 2021-12-06 12:10:48 615 0
1 条回答
写回答
取消 提交回答
  • 你可以检查下在Checkpoint失败的时候是不是任务已经在反压了,

    看起来是有可能因为反压导致的Checkpoint超时失败。*来自志愿者整理的flink邮件归档

    2021-12-06 12:53:50
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Lazy Join Optimizations Without Upfront Statistics 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载