Flink on Yarn_K8S 原理剖析及实践（二）| 学习笔记-阿里云开发者社区

开发者学堂课程【Apache Flink 入门到实战 - Flink 开源社区出品 ：Flink on Yarn_K8S 原理剖析及实践（二）】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/632/detail/10043

Flink on Yarn_K8S 原理剖析及实践（二）

三、Flink on Kubernetes 原理及实践

重点讲 Flink Kubernetes 的一个原理剖析,相比 Yarn ，它相当于是下载了一个资源管理, Kubernetes 它一般是提供容器的一个编排，但它同时提供了一个资源管理，包括启了很多功能相负载均衡、自动扩缩容、包括这种升级， Kubernetes 可以认为是当前很火的一个。

(1）Kubernetes - 基本概念

第一个是 master ，它有一个 master 节点，它是负责整个管理集群，它有一个集训的资源访问入口，它里面会运行一些 API Server 、Controller Manager 及 Schedule 的服务，其实，它包含一个 Etcd的一个 KV 存储；第二个是 Node 的节点，它集训操作的单元，是Pod 运行的宿主机， Node 节点里面会包含一个 agent 的进程，就是 Kubelet ,它会维护管理 Node 上的所有容器的一个创建和启停等等，还有一个服务就是 kube-proxy ,它是用来做服务发现的，同时可以用于反向代理和负载均衡， docker engine 中有个 docker引擎，它是主要负责容器的创建和管理工作；第三个是 Pod ，是由若干个容器的一个组合,是一个创建、调度和管理的一个最小单位.

(2)Kubernetes - 架构图

通过这个图里面，基本上能看出它的整个运行的一个过程， APIServer 相当于是一个用户的一个请求请求入口，用户通过可以通过命令通过 etcd ，然后提交命令给 APIServer ，它会将这些请求存储在 etcd , KV 存储里面去， Etcd 是一个键值存储,然后Scheduler 会对这个 etcd 这个存储服务进行扫描，然后再分配具体的机器，然后在每个 Node 节点上的 Kubelet 会找到自己需要跑的Container ，因为是用户指定的，然后在本机上去运行；用户在提交RC 的描述，会有一个 replication controller 的主角,它会监视群众的容器。并且它能够保证容器的副本数。这也是 Kubernetes 比较强大的地方，需要指定 Task 的运行，它一定会保证有两个在运行，如果你退出之后，它会帮你重新掉落；最后是用户提交一个 service描述文件，由 kube proxy 负责整个流程的一个转发。这是Kubernetes 的基本架构图，如下图:

(3）Kubernetes - 核心概念

第一个是 Replication Controller ,俗称为 RC ，是负责 Pod 副本管理，它可以保证集群中存在指定数量的 Pod 副本，就用户指定多少个，就一定会存在多少个；第二个是 service ，它是提供一个统一的服务访问入口，包括服务代理和发行机制，通过 service 可以很方便地构建一个微服务的价格，其实是一个 PV 和 PC ，它主要就是用于那个数据，就是数据要存在哪个地方，因为那个 Pod 容器是可以随时调度的，可以随时掉落在不同的机子上，并且可以自动飞，这时如果用户需要一个指定一个职业化的存储的话，可以定一个 PVC ；第三个是 ConfigMap ,是用户程序里面一些 KV 一些配置,比如要给这个程序传销的 KV 的配置。

(4)Flink on Kubernetes - 架构

在 Flink上运行的时候，它是分着下图几个步骤，第一个就是会启一个 Flint master process ，就是启 master container ，master 启来之后，它里面也包含一个 Flink 的 ResourceManager ，还有 JobManager 和 Program Runner ， Program Runner 是负责资源管理的，然后 TaskManager 启来之后，它会向 ResourceManager进行注册，注册完成之后，由 JobManager 具体的任务分给这个container ，由 container 去执行，其实整个流程和 Yarn 也比较类似，只是说它的 container 的启动，是由 KPS 启动的，在 flink里面，它的 master 和 worker ，实际上用的都是一个镜像，启动的 worker 的脚本的命令是一样的，通过这个命令选择是启动 master ，还是启动 worker ?如下图:

(5）Flink on Kubernetes - JobManager

用户一般需要订一个 JobManager Deployment ， Deployment 它是可以保证一个副本，一般是定义一个副本就够，因为是 JobManager ，还可以定一个标签，比如 Flink-jobmanager ；其次，还需要订一个桌， JobManager Service ，通过 service name 和 port 暴露JobManager 服务，通过标签选择对应的pods,例如flink-jobmanager。

(6）Flink on Kubernetes - TsakManager

它也是通过 Deployment 来描述,比如是多少个并发，这里就需要定义成几个副本,就会帮提几个 taskmanager ，同时它也需要一个标签，这个标签是用来进行选取的，这样 JobManager 才知道哪些TaskManager 是属于它的，还有一个是 JobManager Service ,它通过 service name 和 port 暴露 JobManager 服务，通过标签选择对应的 pods ,例如 flink-jobmanager 。

(7）Flink on Kubernetes -交互

下图是 Flink on Kubernetes 的一个交互图，第一个是 JobManager service ，它是通过一个标签来进行选择对应的 JobManager ，JobManager 是运行在 Pod 上，然后这里 TaskManager 有三个 Pod ， JobManager Deployment 和 TaskManager Deployment 都可以通过副本数，由 Kubernetes 来保证，有多少个副本，同时， Deployment 还有一个特点就是它可以出现自动升级，如果修改 Deployment 配置之后，它可以做个自动升级，比如改了一些配置文件，改里面的一个配置项，调入内存什么的，然后 Kubernetes 会帮你自动重启；接着是 ConfigMap ，在每个 Pod 上可以挂着一个目录，里面包含一个 flink-conf.yaml 的一个信息,可以通过挂载的方式,如下图:

(8）Flink on Kubernetes - 实践

会讲一下在 Yarn 和 Kubernetes 上是怎么运行的，首先启动一个Session Cluster ，然后通过这个启动命令，比如 kubectl create -f ，可以将这个 Flink 的那个 jobmanager 收起来,后面，是启动做 taskmanager department ,启动完成之后，用户就可以通过这个接口进行访问，这是 service name ,因为它是在 Kubernetes 集群里面的，所以说需要通过一个 Powerful word 经端口转发，端口转化之后，就可以在 Kubernetes 集群之外，运行这个命令，如果这时是在 Kubernetes 里面，可以直接访问，就不需要通过这个转发了；停任务就直接用 flink cancel 就可以停了，如果要将整个资源销毁，可以用 Kubernetes 里的 f ,就将整个资源进行删除，从这几个命令可以看出，对 Kubernetes 的操作其实比较简单的，用户只要定义出几个资源描述文件，然后就可以通过一个简单的命令，将整个Flink Session Cluster 记下来；然后整个资源销毁也很简单，就一个命令就可以完成。

(9）jobmanager-deployment.yaml

这是 Flink官方提供的一个例子，就是做 JobManagerh 和TaskManager 的配置。上面第一行就是 API 在线，是一个 APP 的版本号，版本号里面，比如是以 extensions ，可以制定一个其他的版本，也可以有一个正式版；第二就是就是基本类型，实际上分很多种的，除了 Deployment 之外，还有 service ，还有其他很多种资源，还有 Job ；接着试一下 metadata 元数据，这是一个副本数，比如这个任务需要有副本，因为一个副本就够了，所以说一，接下来要在metadata 里面要订一份 Label,Label 就是一个标签，它适用于那个Pod 的选取，因为在运行前起来之后， Pod 可能会很多，怎么找到对应的 Pod ；接着是 container ，container 里面是有第一个就是它的名字，第二个是 image ， image 里面实际上是包含一个仓库和一个当前版的号，因为现在写的 flink latest ，后面讲那个仓库里面镜像是怎么上传的；然后接下来是一个 args ，它就是一个启动参数，通过启动参数决定要写 jobmanager ，而不是一个其他的程序，因为是个 flink 镜像，所以说他拿的是一个 flink 完整镜像，然后通过参数，启动一个 jobmanager 的参数；然后后面是 ports ，就是要暴露的服务端口，比如现在有 RPC 端口，常见就是 8081 端口；然后最后面是 env , env 里面就是一些环境变量，比如说我要启动Jobmanager ，可能会有自己的一些参数，比如有一些线下的一些环境，是有很多的一些环境变量都可以传进去,左边这个 JobManager Deployment 的配置文件，右边是 TaskManager ，它的那个配置文件有几个不一样的地方，首先是第一个就是它的副本数，这里是两个副本，比如要取两个 TaskManager ,然后它上面有一个标签，通过标签来说明要在 Pod 上运行TaskManager，它的镜像也同样和JobManager 是一个镜像，就是 Flink ，它的参数就是 TaskManager ，这样那个 flink 里面有一个入口脚本，这个脚本在运行的时候，通过 taskmanager 了解参数来决定启动的是，它也会对外报一些服务，比如说像 data 端口、 RPC ， TaskManager 之间也会暴露一些端口进行通信，同样的 TaskManager 也可以传递环境变量，比如说像做 Manager 的 RPC ，可以通过这个环境质量。

(10）jobmanager-service，yaml

jobmanager的资源类型是 Service 类型，表示它要启动的是一个服务，前面这些类型是一个 deployment ，在 service 里面它的配置会相对简单一点，主要的第一个就是 ports ，这个service是包括服务的端口，比如 RPC 端口，其实这些端口都是前面定的 JobManager 端口，然后它通过审核进行选取，这就是 name 标签，就是 APP flink ，主见叫 jobmanager ，它通过标签来选取 flink ，选取 jobmanager 的 Pod ，然后 jobmanager service 都是通过标签，选取到对应的 jobmanager 。

(11）Flink on Kubernetes - 实践

讲一下 Per Job 的方式, Per Job 的方式其实在生产环境使用的比较少,它的原因就是Job的方式，它是将整个 Job 打成一个镜像，这样不是很灵活，如果 Job 里面的逻辑有改动，比如说 Job 需要修改，这样它每次都需要重新打镜像，整个过程非常繁琐，所以在生产环境可能使用的比较少。

第一个说 build 镜像，这是 Flink 源代码目录，复制源代码目录下有一个 flink/flink-container/docker ，它提供了一个脚本叫 bill.sh 这个脚本，这个脚本可以指定从哪个 flink版本开始去构建你的镜像，还可以进行很多版本，这个脚本打完镜像之后，它就会提示一个成功的信息，整个打进的过程可能需要几十分钟，主要和网络有关系，网速好的话可能会快点；第二步是传镜像，在http://hub.docker.com/注册账号和创建仓库，然后上传镜像(以我的仓库zkb555为例)，其中①docker tag topspeed zkb555/topspeedwindowing②docker push zkb555/topspeedwindowing,在整个上传过程也比较慢，也和网速有关系。

(12）代码实现

①先实现 SessionCluster :

首先看看 kube.kubectl.get.pods

看 kube kubectl get nodes 和 kube kubectl get service 如下图:

看 kube kubectl get service -n defult ,如下图:

接下来是 flink

flink-K&S-conf vlm jobmanager-deployment.yaml

flink-K&S-conf vlm jobmanager-service.yaml ,如下图:

link-K&S-conf kubectl create -f jobmanager-deployment.yam

link-K&S-conf kubectl create -f taskmanager-deployment.yam

link-k&s-conf kubectl descirbe pod

flink-k&s-conf kubectl get pod

flink-k&s-conf kubectl descirbe pod

flin-k&s-conf kubectl apply -f jobmanager-service.yaml如下图:

看 flink-k&s-conf kubectl get pods ,如下图:

启动完成之后，就能在本地访问到此服务。可以提交任务

这样任务就提交成功了。

②接下来实现 Per Job 模式

将任务暂停整个任务就结束了，会发现再进也进不去。

四、答疑环节

(1）问: fink on K8S 模式中正在运行的 flink 如果资源不够了，能自动调整志愿吗？

答:其实这个可以 K8S 提供的功能,就是如果资源不够，实际上需要 flink 自己有这种能力才可以。

(2）问: flink 有维特模式吗?

答:现在官方版的还没有，但是在社区有，其他公司已经开发了。

(3）问:flink 这几年是不是很火，是不是因为它具备 spark 和很多的优势的整合福利?

答:这几年火可能因为包括它自己最开始特长是有预算这一块，同时它有很好的知识来源，对于很多业务场景，因为都需要用很多产品，然后用户需要写一份代码， flink 可以同时支持，因为它那个模型比较好支持这些特性的，所以它这几年会发展比较好。

(4）问:公司想做一个多支付的平台，多个用户同时使用同一个 flink集群，在 flink on yarn 当中有两种方式，第一个是 flink Session ，第二是 flink Per Job ，这两种方式，哪种方式适合生产中的服务平台?

答:这个问题前面也说过了， Per Job 和 Session 的区别主要看服务平台的任务的类型，像 Per Job 一般是任务运行的时间会比较长，比如可能一千或者几千块运行的任务，它不需要频繁申请资源，而 Session 模式比较适合有数据仓库的任务，比如都是临时查询，运行完之后会很快就结束，运行几分钟或者十几分钟就结束，任务特别多的场景就比较适合用 Session 模式，可以提前将资源申请好，所以这个主要是看公司的任务类型。

(5）问:flink 申请之后能不能实现动态？

答:目前这一块社区还在讨论，可能也会有机会做,但是目前是不行的，但是有计划在做，这个地方准确的说 flink Session 可能在Yarn 的 Session 模式和目前阿里这边使用的可能还有一些差距，比如阿里这边 flink 的 Session 模式它启来之后，资源是全都申请好的，然后 flink 社区的 Yarn 的 Session 模式，它启来之后实际上只有一个 JobManager ，然后任务提交之后，它才启 taskManager。

(6）问:flink 的 Per Job 提交多个任务，只能 try 执行,作为多住户平台,是否如上所述？

答:是的， Per Job 现在提交一个任务之后会退出，但是最近往社区推一个新的特性，叫 drivemode ，可以看一下社区邮件列表，就是说 drivemode 可以将任务，调完之后远程执行内函数，然后提交完运行完的第一个任务之后，它可以运行第二个任务，第二个任务结束之后，接着提交第三个任务， flink 的 drivemode 目前社区应该是有一些讨论的那个邮件，正在往社区推这一块儿。

(7）问:flink on yarn的Session模式是否可以查看所有 Session的作业？

答:flink Yarn的 ResourceManager 的页面上是可以看到每一个 SessionCluster ，然后在每个 SessionCluster 点进去之后，可以看到当前正在运行的 Session 的作业，因为结束作业，它那个页面上是看不到的，因为它需要一个参数，配置多长时间过期，好像是两个小时，两个小时之后删除，就结束了。

(8）问:flink on yarn 中利用 Per Job 方式可以同时处理多作业吗？

答:这个前面也说了，Per Job模式现在就是在一个某方面的任务，它只能提一个，可能需要改造一下，才可以提高的，它目前是一个创新的方式。

(9)问:work 数据库中有三张表的数据，当 word 数据通过 OZZ 发送到对面的几个 topic ，想通过 flink 中去清洗对应的 topic 的数据，然后做 join 操作，追踪做完以后的数据，写到一张表，由于存在网络延迟， Word 中的部分数据延迟三到五天才到达数据库，导致部分表数据对不上，需要第二天守城作用，将前几天的数据写入注册表，每几小时去做一下原来的数据。

答:如果用 flink ，应该不存在这样的情况，如果需要，每小时就会一下写入，这个应该没问题，因为它会进行实时的操作。

（10）问:flink on yarn的 JobManager 是随机选择一台ResourceManager，只能获取这个 IP 的端口吗?

答:确实是随机取的，因为是 flink on Yarn的ResourceManager分配的机器，所以是随机分配的，如果想获取这个 IP 的端口办法是什么？首先有两个方法，第一个方法就是如果知道它的 ID ，通过Yarn 的 ID 是可以通过 Yarn 的 SDK Java API 接口去查到他的IP 和端口；第二个办法就是如果不知道 ID ，可以在提交一项任务的时候，是需要传一个参数 Yarn 上有一个标签的功能，通过标签可以查到是哪个 JobManager ，然后通过 JobManager 的 ID ，再到Yarn 去查它的 IP 端口。

(11）问:flink 实现是在同一个文件吗?

答:目前确实是这样的，因为和 Yarn 的工作机制有关系，它是用 taskManager 进行一个汇总，目前的解决方法一般是 Job 里面会加一些特定的一些 K ，然后自己做一个区分，比如不同的 task ，将自己的一些信息打印，就打印出一份进行区分。

(12）问:flink on yarn使用 Per Job 方式提交，每个

NodeManager 都需要提前安装 flink 吗？

答:不需要提前安装，因为它是个客户端的一个夹包，它会一起上传上去的。

Flink on Yarn_K8S 原理剖析及实践（二）| 学习笔记

Flink on Yarn_K8S 原理剖析及实践（二）

三、Flink on Kubernetes 原理及实践

四、答疑环节

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Flink on Yarn_K8S 原理剖析及实践（二）| 学习笔记

Flink on Yarn_K8S 原理剖析及实践（二）

三、Flink on Kubernetes 原理及实践

四、答疑环节

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像