flink on yarn 环境，当任务程序包和配置文件目录config分离，应该怎么启动任务程序？

flink on yarn 环境，当任务程序包和配置文件目录config分离，并上传到HDFS时，应该怎么启动任务程序？

展开

收起

三分钟热度的鱼 2023-10-24 21:12:10 424 0

5 条回答

写回答

取消提交回答

Zzzz

在Flink on Yarn环境中，如果任务程序包和配置文件目录config分离并上传到HDFS，您可以使用以下命令来启动任务程序：./bin/flink run -m yarn-cluster -ynm myjobname -yjm 1024 -yrc hdfs://<path-to-hdfs/config/config.yaml -py yourprogram.py。其中，hdfs://path-to-hdfs/config/config.yaml是存放在HDFS上的配置文件路径。

此外，为了确保Flink作业的高可用性，您可以考虑配置Flink集群HA（High Availability）。默认情况下，Flink只有一个JobManager，这可能导致单点故障。通过配置JobManager HA，您的集群可以从单点故障中恢复，从而避免系统中断。

还需要注意，Flink提供了两种在Yarn上运行的模式：Session-Cluster和Per-Job-Cluster。Session-Cluster模式需要先启动集群，然后再提交作业。而Per-Job-Cluster模式是为每个作业单独启动一个Flink集群。根据您的需求和资源情况，选择合适的运行模式。

最后，确保您的Yarn集群配置正确，并且与Flink版本兼容。例如，Zookeeper, HDFS 和 Yarn的版本需要与Flink版本匹配。同时，检查Yarn的配置，如虚拟内存检查设置，以确保Flink作业在Yarn上正常运行。

2023-10-29 07:52:17

赞同展开评论打赏
wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
在 Flink on YARN 环境中，如果你将任务程序包和配置文件目录分离，并上传到 HDFS，你可以通过以下步骤来启动任务程序：
1. 将任务程序包和配置文件上传到 HDFS 上的指定目录。确保你已经将任务程序包和配置文件正确地上传到了 HDFS，并且你知道它们在 HDFS 上的路径。
2. 使用 yarn-session.sh 脚本启动 Flink 会话。在启动脚本时，需要指定以下参数：
  
  -t yarn-per-job：指定 Flink on YARN 的执行模式为 "yarn-per-job"。
  -n <number-of-taskmanagers>：指定 TaskManager 的数量。
  -jm <jobmanager-memory>：指定 JobManager 的内存大小。
  -tm <taskmanager-memory>：指定每个 TaskManager 的内存大小。
  -d：启用后台模式运行。
  -j <path-to-job-jar>：指定任务程序包在 HDFS 上的路径。
  -c <fully-qualified-classname>：指定任务程序的入口类。
  -yD <key=value>：设置任务程序的配置项。例如，-yD fs.hdfs.hadoopconf=/etc/hadoop 可以设置 Hadoop 配置文件的路径。
  
  以下是一个示例的启动命令：
  
  ./bin/yarn-session.sh -t yarn-per-job -n 2 -jm 1024m -tm 2048m -d -j hdfs:///path/to/job.jar -c com.example.MyJob -yD fs.hdfs.hadoopconf=/etc/hadoop
  
  注意替换 <number-of-taskmanagers>、<jobmanager-memory>、<taskmanager-memory>、<path-to-job-jar> 和 <fully-qualified-classname> 为实际的值。
3. Flink 会话启动后，它将自动从 HDFS 上加载任务程序包和配置文件。任务程序将在 Flink on YARN 上执行。
通过以上步骤，你可以在 Flink on YARN 环境中成功启动任务程序，并使用分离的任务程序包和配置文件。确保在启动脚本中正确指定 HDFS 上的路径，并提供正确的参数和配置项。
2023-10-24 23:53:01

赞同展开评论打赏
玥轩
在Flink on yarn环境中，如果任务程序包和配置文件目录config分离并上传到HDFS，您可以按照以下步骤启动任务程序：
1. 首先，将Flink程序包和配置文件上传到HDFS集群上。
2. 然后，使用Yarn客户端提交任务到Yarn ResourceManager，并申请所需的资源。
3. ResourceManager会分配Container资源并启动ApplicationMaster。接着，ApplicationMaster会从HDFS中加载Flink的程序包和配置文件，构建运行环境，并启动JobManager。
在Flink On Yarn模式下，Yarn的资源可以按需使用，提高集群的资源利用率。此外，Yarn的任务有优先级，可以根据优先级运行作业。基于Yarn调度系统，能够自动化地处理各个角色的Failover。
2023-10-24 22:38:39

赞同展开评论打赏
圆不溜秋的小猫猫

config文件也上传到hdfs，程序包从hdfs读配置文件。用ParameterTool来获取传入的配置文件路径，然后使用Hadoop的FileSystem API来读HDFS上的配置文件。此回答整理自钉群“实时计算Flink产品交流群”

2023-10-24 22:12:14

赞同展开评论打赏
Star时光
当任务程序包和配置文件目录config分离，并上传到HDFS时，可以通过以下命令在Flink on Yarn环境中启动任务程序：
```
./bin/flink run -m yarn-cluster -ynm myjobname -yjm 1024 -yrc config/config.yaml -py yourprogram.py
```
其中，config/config.yaml是配置文件的路径，yourprogram.py是任务程序的路径。-ynm选项用于指定YARN应用程序的名称，-yjm选项用于指定YARN应用程序的JVM堆大小，-yrc选项用于指定配置文件的路径。
注意，这个命令假设你已经将任务程序和配置文件上传到了HDFS，并且Flink on Yarn客户端可以访问这些文件。如果你的HDFS目录结构和上述命令中的不同，你可能需要修改config/config.yaml文件中的相关路径。
2023-10-24 21:40:38

赞同展开评论打赏