开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

哪位老师遇到过flink on yarn per-job模式HA zk不重新选举JobManager

43832这个端口号是被Kill掉的Job Manager449问.png 449问问.png 449问问问.png

展开
收起
游客3oewgrzrf6o5c 2022-06-28 11:18:01 450 0
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,在使用阿里云Flink on YARN per-job模式时,如果启用了HA(高可用)模式,并且使用了Zookeeper进行协调,那么在一个Job Manager节点挂掉后,Zookeeper应该会重新进行选举,选出一个新的Job Manager节点来接管作业。如果您发现在一个Job Manager节点被Kill掉后,Zookeeper没有重新选举新的Job Manager节点,可能是以下几个原因导致的:

    1. Zookeeper集群状态异常:如果Zookeeper集群状态异常,例如某个Zookeeper节点挂掉,可能会导致Zookeeper无法正常进行选举。建议您检查Zookeeper集群状态,并确保Zookeeper集群正常运行。

    2. Flink on YARN per-job模式配置异常:如果Flink on YARN per-job模式的配置存在异常,例如Zookeeper地址配置错误或者HA模式配置错误,可能会导致Zookeeper无法正常进行选举。建议您检查Flink on YARN per-job模式的配置,以确保配置正确无误。

    3. 作业状态异常:如果作业状态异常,例如作业未正确关闭,可能会导致Zookeeper无法正常进行选举。建议您检查作业状态,以确保作业正常关闭。

    关于43832端口号被Kill掉的Job Manager,这可能是由于某个作业执行失败或者某个Job Manager节点出现故障而导致的。当Flink on YARN per-job模式中的一个Job Manager节点挂掉时,Zookeeper应该会重新选举新的Job Manager节点来接管作业。如果Zookeeper没有进行重新选举,可能是以上所述的原因导致的。

    如果您需要进一步排查问题,建议您查看Flink on YARN per-job模式的日志,以便了解更多关于作业状态和Zookeeper选举的信息。您也可以尝试重新启动Flink on YARN per-job模式,并确保Zookeeper集群正常运行,以便解决问题。

    2023-07-23 13:01:40
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 热门讨论

    热门文章

    相关电子书

    更多
    深度学习+大数据 TensorFlow on Yarn 立即下载
    Docker on Yarn 微服务实践 立即下载
    深度学习+大数据-TensorFlow on Yarn 立即下载