文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

flink on yarn模式使用zk 请问下，可以做什么配置来从检查点重启呢？

flink on yarn模式使用zk 做ha

zk抖动断开连接导致任务失败
但是任务失败时会清掉zk里的ha的数据，导致任务无法自动从检查点重启
请问下，可以做什么配置来从检查点重启呢？

展开

收起

真的很搞笑 2024-02-24 12:47:03 208 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

关注 zk抖动问题好像老版本有这个问题
，此回答整理自钉群“【②群】Apache Flink China社区”

2024-02-24 16:49:42

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
为了实现Flink在YARN模式下使用ZooKeeper进行高可用性（HA）配置，并确保任务可以从检查点重启，您可以考虑以下配置和步骤：
1. 配置ZooKeeper的quorum：确保您的Flink配置文件中设置了正确的high-availability.zookeeper.quorum，这通常是一个包含ZooKeeper集群地址的列表，例如node1:2181,node2:2181,node3:2181。
2. 设置Flink在ZooKeeper中的工作路径：通过high-availability.zookeeper.path.root配置项指定Flink在ZooKeeper中的工作路径，例如/flink。
3. 确保检查点元数据的持久化：Flink需要持久化存储checkpoint的元数据信息，包括最近一次已经完成的checkpoint。这通常是通过配置state.backend来实现的，可以选择如RocksDBStateBackend或FsStateBackend等后端来存储这些信息。
4. 配置Yarn session模式：如果您使用的是Yarn session模式，确保您已经启动了一个长期运行的Flink集群。这样，即使任务失败，集群仍然可以保持运行状态，从而允许任务从最近的检查点重新启动。
5. 设置Hadoop相关配置：确保您的Flink集群能够访问Hadoop的配置，这可以通过设置HADOOP_CONF_DIR环境变量来实现，指向包含Hadoop配置文件的目录。
6. 调整资源分配策略：在Yarn模式下，Flink的任务会运行在YARN容器内，因此需要确保YARN的资源分配策略能够适应Flink任务的需求，以便在任务失败时能够及时恢复。
总的来说，通过上述配置和步骤，您应该能够确保Flink在遇到ZooKeeper抖动导致的任务失败时，能够从最近的检查点重新启动任务。此外，建议在生产环境中对Flink集群进行充分的测试，以确保高可用性配置的正确性和稳定性。如果问题仍然存在，可能需要进一步检查Flink和ZooKeeper的日志，以确定是否有其他因素导致任务无法从检查点重启。
2024-02-24 16:41:05

赞同展开评论

问答分类：

流计算资源调度实时计算 Flink版

问答标签：

实时计算 Flink版模式实时计算 Flink版重启实时计算 Flink版检查实时计算 Flink版检查重启实时计算 Flink版Yarn

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink手动取消的job，记录会保存多久就查不到检查点信息了？

144

0

0

Flink默认先全量再增量同步，全量时会对checkpoint上锁，导致请求检查点时失败，任务重启

426

1

0

Flink1.19.1 S3（minio）保存检查点报错

711

1

0

在Flink CDC中，集群模式已经重启还是不行？

116

1

0

使用Flink cdc 任务的检查点设置为增量的，看checkpoint确实是一增量的方式在保存吗？

136

0

0

在Flink CDC中，有遇到此报错吗？将检查点写入到oss，启动job报错。

125

0

0

flink-cdc读取 postgresql，从savepoint重启后一直报这个错误，为什么?

138

1

0

在Flink CDC中s想重启flink以使lib的jar包生效，导致之前的容器不可用怎么办？

166

1

0

在Flink CDC中作业异常以后，会自动从检查点恢复作业，但是为什么一直恢复失败?

103

0

0

在Flink CDC中抽取数据凌晨失败了白天重启任务它还从之前零点失败时候的点位开始消费？

339

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

OpenClaw: The Open-Source AI Agent That's Changing How We Work and Live

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

热门讨论

热门文章

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink cdc支持国产数据库吗？

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

flinkcdc在IDEA运行正常，打包就报错

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

有用flink cdc同步mysql到hive这样搞过的源码吗?

Flink CDC Hbase字段类型跟flinksql类型，转换的java代码吗？

请问mysql-cdc支持在pyflink中将数据从mysql-cdc输入到doris吗？

Flink1.10 python API 对流式处理的支持度如何，能直接用于生产吗？

展开全部

数据仓库介绍与实时数仓案例

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

基于实时计算（Flink）打造一个简单的实时推荐系统

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Apache Flink 漫谈系列(04) - State

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

展开全部

还有其他疑问?