如何在阿里云ACK上使用Arena提交ECI训练任务

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 使用ECI运行AI训练任务,利用比较强力的Serverless能力。本文介绍使用Arena提交在ECI上运行的分布式训练任务的流程。

该文档主要验证了使用Arena在ACK上提交训练分布式训练任务的可行性,以及其训练性能验证。这里选用两个训练模式的任务进行实验的测算与比较,分别为基于TFJob的PS训练模式与基于MPIJob的Allreduce训练模式。

与AutoScaler弹出的ECS比起来,ECI的Pod所占用的底层资源只能是单GPU实例,无法使用hostNetwork、hostIPC、hostPID。所以自然也就无法使用NCCL之类的通信,只能依赖于容器网络的通信。

对于需要在ECI上运行的AI训练任务,需要指定selector到ECI上,然后tolerate ECI上的taints,然后需要禁用hostNetwork、hostIPC、hostPID,最后使用GPU实例的时候还需要指定Host实例规格。如果镜像过于大,则需要提前申请预留足够的临时空间,使用k8s.aliyun.com/eci-extra-ephemeral-storage的annotation进行设置临时存储空间的上限。

PS模式训练

提交命令

arena submit tf \
--name=tf-ps-sync-eci \
--gpus=1 \
--workers=3 \
--worker-image=registry-vpc.cn-beijing.aliyuncs.com/acs/gpushare-sample:tensorflow-1.5 \
--ps=1 \
--ps-image=registry-vpc.cn-beijing.aliyuncs.com/huozx/gpushare-sample:tensorflow-1.5-no-gpu \
--toleration all \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
"python tensorflow-sample-code/tfjob/docker/v1alpha2/distributed-mnist/main.py --max_steps 1000"

这是一个基于TFJob的PS训练模式的分布式训练任务,一共会拉起来4个Pod,1个Ps和3个Worker,同时在ECS上拉起同一个任务,比较其运行时间,ECS上其运行时间为4m22s,在ECI上运行其时间为5m3s,会有少量的时间增加。

AllReduce模式训练

提交命令

arena submit mpijob \
--name=mpi-allreduce-sync-eci \
--gpus=1 \
--memory=16Gi \
--cpu=4 \
--workers=8 \
--image=registry-vpc.cn-beijing.aliyuncs.com/huozx/bert-elastic-demo:v1.5-test \
--toleration all \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-extra-ephemeral-storage=50Gi \
"horovodrun --log-level DEBUG --verbose   -np 8   --min-np 1   --max-np 128   --host-discovery-script /etc/edl/discover_hosts.sh   python /examples/elastic/pytorch/train_bert.py --epochs=5 --model=bert --batch-size 32"

这是一个基于MPIJob的AllReduce训练模式的分布式训练任务,一共会拉起来9个Pod,1个Launcher和8个Worker,同时在ECS上拉起同一个任务,比较其运行时间,在ECS上其运行时间为21m35s,在ECI上运行其时间为23m8s,会有少量的时间增加。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
3月前
|
弹性计算 Kubernetes Serverless
Kubernetes 的架构问题之ACK/ASK支持ECI的Serverless Container如何解决
Kubernetes 的架构问题之ACK/ASK支持ECI的Serverless Container如何解决
98 7
|
6月前
|
弹性计算 缓存 Kubernetes
什么是阿里云弹性容器实例?弹性容器实例优势及应用场景介绍
弹性容器实例是阿里云的云服务器产品,使用弹性容器实例之后,用户无需管理底层 ECS 服务器,只需要提供打包好的镜像,即可运行容器,与阿里云容器服务无缝对接并仅为容器实际运行消耗的资源付费。本文介绍了阿里云弹性容器实例的、功能特性、产品优势及应用场景。
什么是阿里云弹性容器实例?弹性容器实例优势及应用场景介绍
|
6月前
|
Kubernetes 网络安全 调度
容器服务ACK常见问题之容器服务ACK的eci调度卡住如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
6月前
|
人工智能 Cloud Native PyTorch
阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践
阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践
148838 4
|
6月前
|
弹性计算 Kubernetes Ubuntu
ack-kubernetes-elastic-workload,ECI这个能不能重新打个包支持下arm
ack-kubernetes-elastic-workload,ECI这个能不能重新打个包支持下arm
54 2
|
容器 Kubernetes Perl
阿里云Kubernetes平台构建和管理实践(上)
阿里云智能容器平台解决方案架构师徐征讲解阿里云Kubernetes平台构建和管理实践,徐征主要从事帮助企业在面向云原生的应用转型的过程中提供解决方案和相应的工作。
10884 0
|
容器 Perl 监控
阿里云Kubernetes平台构建和管理实践(下)
阿里云智能容器平台解决方案架构师徐征讲解阿里云Kubernetes平台构建和管理实践,徐征主要从事帮助企业在面向云原生的应用转型的过程中提供解决方案和相应的工作。
3269 0
|
15天前
|
JSON Kubernetes 容灾
ACK One应用分发上线:高效管理多集群应用
ACK One应用分发上线,主要介绍了新能力的使用场景
|
16天前
|
Kubernetes 持续交付 开发工具
ACK One GitOps:ApplicationSet UI简化多集群GitOps应用管理
ACK One GitOps新发布了多集群应用控制台,支持管理Argo CD ApplicationSet,提升大规模应用和集群的多集群GitOps应用分发管理体验。
|
1月前
|
Kubernetes Cloud Native 云计算
云原生之旅:Kubernetes 集群的搭建与实践
【8月更文挑战第67天】在云原生技术日益成为IT行业焦点的今天,掌握Kubernetes已成为每个软件工程师必备的技能。本文将通过浅显易懂的语言和实际代码示例,引导你从零开始搭建一个Kubernetes集群,并探索其核心概念。无论你是初学者还是希望巩固知识的开发者,这篇文章都将为你打开一扇通往云原生世界的大门。
110 17