如何使用 ACK 共享 GPU 调度| 学习笔记

简介: 快速学习如何使用 ACK 共享 GPU 调度

开发者学堂课程【5分钟玩转阿里云容器服务如何使用 ACK 共享 GPU 调度】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1038/detail/18167


如何使用 ACK 共享 GPU 调度

 

内容介绍

一、容器服务之共享 GPU 调度

二、实际操作

三、共享 GPU 调度的组件功能

四、显存不隔离模式的共享任务

五、多卡共享功能

六、最新上线的算力隔离功能

 

一、 容器服务之共享 GPU 调度

共享容器调度是阿里云容器服务AI套件提供的能力之一,K8S 原生调度器仅支持单卡调度,共享 GPU 调度借助于阿里自研 cgpu 显卡调度技术,能够为用户提供多个应用,共享同一个显卡的调度能力,共享 GPU调度在进行显卡资源调度时,具有支持 GPU 的显存和算力隔离,适配开源标准方案,AI应用无需重新编译或进行 CUDA库替换,以及针对英伟达设备的底层操作API更加稳定和收敛的特点,其中共享GPU 调度又可分为基础版和专业版,其中基础版只能用于专业版 ACK 集群,专业版只能用于Pro版ACK集群,专业版共享 GPU 调度在具有技术所有功能的基础上增强了多卡共享调度能力。能够支持单一 PUD 在多 GPU 卡申请部分显存以及算力同时安装方式上也更加简单。基础法需要登录到每台机器上进行组件安装,专业版需要在控制台进行两步操作即可使用减少安装流程以及出错风险。

 

二、实际操作

下面就将通过实际操作来带领大家了解一下,Pro 版 ACK 集群共享 CPU 调度的安装以及基本使用并展示组件能力。

image.png

这里已经部署了一台包含异构节点的集群安装共享GPU调度的第一步是是安装AI套件,从控制台的侧边栏应用卡中找到云原生AI套件的位置,进入云原生AI套件点击一键部署,勾选部署选项当中的调度组件,再点击页面底部的部署AI条件即可。

第二步需要去节电池定义启用调度能力的节点,首先进入节点池标签编辑需要启动调度能力的节电池,确认节电池当中的机器规格为异构计算机型,打开高级选项添加如视频(均衡分布策略)中所示的节点标签并按需勾选下方的同时更新存量节点的标签及污点并点击确认即可,算力调度以及不隔离调度所需的节点标签各位可自行查看文档获取。需要注意的是算力调度的节点首次启用能力时必须重新加入节点池以安装必备组件。最后可以去节点选项卡中确认当前节点池中的节点已经包含了刚刚所添加的节点标签。

image.png


三、共享 GPU 调度的组件功能

本期将演示显存共享、多卡共享以及算力共享3种能力,显存共享包括显存隔离模式以及不隔离模式。首先通过控制台部署形成隔离模式的共享任务

image.png

这里已经提前编辑好的任务模版并已经提前创建好了不同模式的节点池,在调度时可以通过 Pod 中的 NodeSelectoe 选择显存的共享模式,任务会创建五个pod,每个Pod申请2GB的显存,通过选择器将Pod部署到隔离模式的节点上,部署一下等待Pod 创建好,这里由于之前已经部署过 Pod所以创建速度比较快。这里通过Pod内的英伟达命令去查看的所具有的显卡信息,可以发现此时Pod只能看到2GB的显存,此时 Pod 的可用显存已经被隔离了

image.png


四、显存不隔离模式的共享任务

这里同样部署5个Pod,通过选择器将Pod部署到不隔离模式的节点上。这里同样Pod创建好,同样进入Pod查看显卡信息袋泡茶就好。键进入bios查看显卡信息可以发现,此时Pod可以看到整张显卡的显存,此时多个Pod如果被调度到同一显卡上,这些Pod会产生一些显存的竞争以及挑战。

 

五、多卡共享功能

多卡共享功能是指同一个Pod在进行资源申请时其申请的资源会平均分配到多张显卡上。并且此时每张显卡剩余的资源都可以被调度给其他的Pod使用,使用多卡共享功能的关键步骤在于在Pod的描述文件当中添加以阿里云gpucount为key的label这样调度器就会将申请的Pod的显存以及算力资源平均分配到多张卡中,可以申请的资源量必须能够给显卡数量整除。这里我部署一下多卡共享任务。进入节点查看。可以发现此时Pod申请了两张显卡,并且每张显卡能看到的内损量都是1GB

image.png


六、最新上线的算力隔离功能

通常Pod占用显存的大小并不能完全代表任务的计算量多少,通过算力隔离功能能够让不同的应用更加有效地进行协同,更加有效地进行算力分配。申请GPU算力的关键步骤在于Pod描述文件当中添加以阿里gpucount为key的资源如任务模板所示

image.png

部署一下并等待Pod创建好。进入Pod查看显卡使用情况。可以发现此时这些Pod的申请显卡资源为2GB同时所有的Pod在同一显卡上所占用的显卡总的算力为50%是符合预期的。

image.png

相关实践学习
使用ACS算力快速搭建生成式会话应用
阿里云容器计算服务 ACS(Container Compute Service)以Kubernetes为使用界面,采用Serverless形态提供弹性的算力资源,使您轻松高效运行容器应用。本文将指导您如何通过ACS控制台及ACS集群证书在ACS集群中快速部署并公开一个容器化生成式AI会话应用,并监控应用的运行情况。
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
2月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
298 1
|
2月前
|
弹性计算 监控 调度
ACK One 注册集群云端节点池升级:IDC 集群一键接入云端 GPU 算力,接入效率提升 80%
ACK One注册集群节点池实现“一键接入”,免去手动编写脚本与GPU驱动安装,支持自动扩缩容与多场景调度,大幅提升K8s集群管理效率。
263 89
|
4月前
|
运维 容灾 调度
突破算力瓶颈:库存感知下的多地域 GPU 弹性调度
介绍多集群通过基于库存的弹性调度提供了 GPU 在多地域供给问题的解决方案。
|
7月前
|
Kubernetes 调度 异构计算
一文搞懂 GPU 共享方案: NVIDIA Time Slicing
本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享一块物理 GPU,以提升资源利用率。
383 11
|
8月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度
本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。
|
8月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
9月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
2月前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
319 0
|
7月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1207 61