背景
由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建AI系统,而以容器,Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于Kubernetes 构建AI平台已经成为趋势。
当面临较复杂的模型训练或者数据量大时,单机的计算能力往往无法满足算力要求。 通过使用 阿里的AiACC 或者社区的 horovod 等分布式训练框架,仅需修改几行代码,就能将一个单机的训练任务扩展为支持分布式的训练任务。 在Kubernetes上常见的是kubeflow 社区的tf-operator 支持Tensorflow PS模式,或者mpi-operator 支持horovod的mpi allreduce模式。
现状
kubernetes和云计算提供敏捷性和伸缩性,我们可以通过cluster-AutoScaler 等组件为训练任务设置弹性策略,利用Kubernetes的弹性能力,按需创建,减少GPU设备空转。
但这种伸缩模式面对训练这种离线任务还是略有不足:
- 不支持容错,当部分Worker 由于设备原因失败,整个任务需要停止重来。
- 训练任务一般时间较长,占用算力大,任务缺少弹性能力。 当资源不足时,除非任务终止,无法按需为其他业务腾出资源。
- 训练任务时间较长,不支持worker 动态配置, 无法安全地使用抢占实例,发挥云上最大性价比
如何给训练任务赋予弹性能力,是提高性价比的关键路径。 近期horovod 等分布式框架逐渐支持了Elastic Training,即弹性训练能力。 也就是允许一个训练任务在执行的过程中动态的扩容或者缩容训练worker, 从不会引起训练任务的中断。需要在代码中做少量修改适配,可参考https://horovod.readthedocs.io/en/stable/elastic_include.html
对Elastic training 的实现原理感兴趣可以看这篇 Elastic Horovod 设计文档 , 本文不详细介绍。
在mpi-operator中,参与训练的Worker都是作为静态资源设计和维护,支持弹性训练模式后,给任务增加了灵活性,同时也给运维层带来了挑战,例如:
- 必须通过horovod提供的horovordrun 作为入口,horovod中launcher通过ssh登陆worker,需要打通launcher和worker之间的登陆隧道
- 负责计算弹性的Elastic Driver 模块通过指定 discover_host 脚本获取最新worker拓扑信息,从而拉起或停止worker 实例。 当worker 变化时,首先要更新discover_host 脚本的返回值。
- 在抢占或价格计算等场景中,有时需要指定worker缩容,k8s原生的编排元语 deployment, statefulset 无法满足指定缩容的场景。
解决方法
针对以上问题,我们设计并开发了et-operator,提供 TrainingJob
CRD 描述训练任务, ScaleOut
和 ScaleIn
CRD 描述扩容和缩容操作, 通过它们的组合,使我们的训练任务更具有弹性。
设计
TrainingJob Controller 主要有以下功能:
- 维护 TrainingJob 的创建/删除生命周期,以及子资源管理
- 执行扩缩容操作
- 容错,当worker 被驱逐,创建新的worker 加入到训练中
资源创建
TrainingJob 子资源创建顺序如下:
- 创建打通ssh 所需的密钥对, 创建secret
- 创建workers,包含service和pod,挂载secret公钥
- 创建configmap, 包含
discover_host 脚本
,hostfile文件
- 创建launcher,挂载configmap。 由于hostfile 后续会随着拓扑关系修改,所以hostfile 单独通过initcontainer 从configmap拷贝到单独目录。
TrainingJob 的的配置分为Lanucher 和 Worker。 默认et-operator 会将discover_host脚本挂载到Launcher的 /etc/edl/discover_hosts.sh
文件,在入口脚本的horovodrun 中可以通过 --host-discovery-script
参数指定。 Worker 设置中 ,通过 maxReplicas / minReplicas 指定workers的副本数范围。
apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
name: elastic-training
namespace: default
spec:
cleanPodPolicy: Running
etReplicaSpecs:
launcher:
replicas: 1
template:
spec:
containers:
- command:
- sh
- -c
- horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script
/etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.py
image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
imagePullPolicy: Always
name: mnist-elastic
worker:
maxReplicas: 9
minReplicas: 1
replicas: 2
template:
spec:
containers:
- image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
imagePullPolicy: Always
name: mnist-elastic
resources:
limits:
nvidia.com/gpu: "1"
requests:
nvidia.com/gpu: "1"
status:
currentWorkers:
- elastic-training-worker-0
- elastic-training-worker-1
- elastic-training-worker-2
- elastic-training-worker-3
phase: Succeeded
replicaStatuses:
Launcher:
active: 1
succeeded: 1
Worker:
active: 4
Worker 扩容 / 缩容
除了TrainingJob外,et-operator 同时支持 ScaleOut 和 ScaleIn 两种CRD,下发训练任务扩容和缩容操作。
当下发一个ScaleOut CR, ScaleOutController 触发Reconcile, 这里工作很简单, 根据ScaleOut CR中的Selector 字段,找到Scaler 对应的TrainingJob, 设置到CR 的OwnerReferences 上。
- apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleOut
metadata:
creationTimestamp: "2020-11-04T13:54:26Z
name: scaleout-ptfnk
namespace: default
ownerReferences:
- apiVersion: kai.alibabacloud.com/v1alpha1
blockOwnerDeletion: true
controller: true
kind: TrainingJob
name: elastic-training // 指向扩容对象TrainingJob
uid: 075b9c4a-22f9-40ce-83c7-656b329a2b9e
spec:
selector:
name: elastic-training
toAdd:
count: 2
TrainingJobController 中监听到属于 TrainingJob
的ScaleOut CR有更新, 触发TrainingJob
的Reconcile, 遍历过滤 TrainingJob
下OwnerReference指向的 ScaleIn 和 ScaleOut, 根据创建时间和状态时间决定执行的扩容或者缩容。
apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
name: elastic-training
namespace: default
spec:
// ...... Launcher and Worker spec
status:
currentScaler: ScaleIn:default/scaleout-ptfnk
phase: Scaling
currentWorkers:
- elastic-training-worker-0
- elastic-training-worker-1
运行
安装ET-Operator
mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService
cd $(go env GOPATH)/src/github.com/aliyunContainerService
git clone https://http://github.com/aliyunContainerService/et-operator
cd et-operator
kubectl create -f deploy/all_in_one.yaml
检测crd的安装
# kubectl get crd
NAME CREATED AT
scaleins.kai.alibabacloud.com 2020-11-11T11:16:13Z
scaleouts.kai.alibabacloud.com 2020-11-11T11:16:13Z
trainingjobs.kai.alibabacloud.com 2020-11-11T11:16:13Z
检测controller的运行状态,默认安装在kube-ai 中
# kubectl -n kube-ai get po
NAME READY STATUS RESTARTS AGE
et-operator-controller-manager-7877968489-c5kv4 0/2 ContainerCreating 0 5s
运行TrainingJob
运行事先已准备好的示例
kubectl apply -f examples/training_job.yaml
检测运行状态
# kubectl get trainingjob
NAME PHASE AGE
elastic-training Running 77s
# kubectl get po
NAME READY STATUS RESTARTS AGE
elastic-training-launcher 1/1 Running 0 7s
elastic-training-worker-0 1/1 Running 0 10s
elastic-training-worker-1 1/1 Running 0 9s
缩容训练任务Worker
执行缩容时,可以通过ScaleIn CR中的 spec.toDelete.count
或 spec.toDelete.podNames
字段指定缩容的worker。
通过 count
配置缩容的数量,则通过index 计算由高到低缩容Worker。
apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
name: scalein-workers
spec:
selector:
name: elastic-training
toDelete:
count: 1
如果想要缩容特定的Worker,可以配置 podNames
apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
name: scalein-workers
spec:
selector:
name: elastic-training
toDelete:
podNames:
- elastic-training-worker-1
运行一个缩容示例,指定数量缩容1个worker
kubectl create -f examples/scale_in_count.yaml
检测缩容执行状态和训练任务
# kubectl get scalein
NAME PHASE AGE
scalein-sample-t8jxd ScaleSucceeded 11s
# kubectl get po
NAME READY STATUS RESTARTS AGE
elastic-training-launcher 1/1 Running 0 47s
elastic-training-worker-0 1/1 Running 0 50s
扩容训练任务
在ScaleOut CR中,通过 spec.toAdd.count
字段指定扩容的worker数
apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleOut
metadata:
name: elastic-training-scaleout-9dtmw
namespace: default
spec:
selector:
name: elastic-training
timeout: 300
toAdd:
count: 2
运行示例
kubectl create -f examples/scale_out.yaml
检测缩容执行状态和训练任务
kubectl get scaleout
NAME PHASE AGE
elastic-training-scaleout-9dtmw ScaleSucceeded 30s
kubectl get po
NAME READY STATUS RESTARTS AGE
elastic-training-launcher 1/1 Running 0 2m5s
elastic-training-worker-0 1/1 Running 0 2m8s
elastic-training-worker-1 1/1 Running 0 40s
elastic-training-worker-2 1/1 Running 0 40s
总结
ET-Operator 提供一组训练和扩缩容CRD和Controller, 让我们在Kubernetes 上方便地运行弹性分布式训练,支持下发分布式训练任务,并通过和分布式框架的集成联动,在训练任务运行过程中动态地扩容和缩容参与运算的Workers。 使我们的训练任务具有弹性能力,结合抢占实例,能够更好的利用云上的资源弹性和性价比优势。