开发者社区> 问答> 正文

流处理任务中checkpoint失败如何解决?

目前遇到一个问题,在iterative stream job 使用checkpoint,按照文档进行了相应的配置,测试过程中checkpoint几乎无法成功 测试state 很小,只有几k,依然无法成功。会出现org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.的报错 ; 配置如下: env.enableCheckpointing(10000, CheckpointingMode.EXACTLY_ONCE, > true); > > > CheckpointConfig checkpointConfig = env.getCheckpointConfig(); > > > checkpointConfig.setCheckpointTimeout(600000); > > > checkpointConfig.setMinPauseBetweenCheckpoints(60000); > > > checkpointConfig.setMaxConcurrentCheckpoints(4); > > > > > > > > > checkpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); > > > checkpointConfig.setPreferCheckpointForRecovery(true); > > > checkpointConfig.setTolerableCheckpointFailureNumber(2); > > > checkpointConfig.enableUnalignedCheckpoints(); > > > > > > > > > 任务只处理几条数据,未存在反压的情况。有遇到类似问题的老哥吗? > *来自志愿者整理的flink邮件归档

展开
收起
游客sadna6pkvqnz6 2021-12-07 16:56:38 833 0
1 条回答
写回答
取消 提交回答
  •    按理说,数据和 barrier 没有依赖关系的,但从你的描述看,没有数据的时候,无法接受到 barrier,或许你可以分享一下你的代码(可以把业务逻辑进行简化),或许大家可以帮你看看*来自志愿者整理的flink

    2021-12-07 20:22:12
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
俞航翔|基于Log的通用增量Checkpoint 立即下载
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
Flink中的两类新型状态存储 立即下载