flink on yarn模式 使用zk 做ha
zk抖动断开连接导致任务失败
但是任务失败时会清掉zk里的ha的数据,导致任务无法自动从检查点重启
请问下,可以做什么配置来从检查点重启呢?
为了实现Flink在YARN模式下使用ZooKeeper进行高可用性(HA)配置,并确保任务可以从检查点重启,您可以考虑以下配置和步骤:
high-availability.zookeeper.quorum
,这通常是一个包含ZooKeeper集群地址的列表,例如node1:2181,node2:2181,node3:2181
。high-availability.zookeeper.path.root
配置项指定Flink在ZooKeeper中的工作路径,例如/flink
。state.backend
来实现的,可以选择如RocksDBStateBackend或FsStateBackend等后端来存储这些信息。HADOOP_CONF_DIR
环境变量来实现,指向包含Hadoop配置文件的目录。总的来说,通过上述配置和步骤,您应该能够确保Flink在遇到ZooKeeper抖动导致的任务失败时,能够从最近的检查点重新启动任务。此外,建议在生产环境中对Flink集群进行充分的测试,以确保高可用性配置的正确性和稳定性。如果问题仍然存在,可能需要进一步检查Flink和ZooKeeper的日志,以确定是否有其他因素导致任务无法从检查点重启。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。