简介:GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDA、cuDNN等软件。
背景
GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、CUDA、cuDNN等软件。
安装NVIDIA GPU驱动和CUDA等软件的流程大概分为如下几步:
∙ 确定需要使用的GPU驱动、CUDA版本
∙ 找到正确的下载链接
∙ 下载安装包
∙ 安装依赖包
∙ 安装驱动或CUDA包
GPU云服务器售卖的NVIDIA卡规格实例基本都是Telsa系列的卡,我们的很多用户以前并没有使用过,或者很多用户以前并没有使用过NVIDIA GPU,更不要说安装这些基础软件了,那么客户在实际的安装操作过程中会遇到很多问题:
∙ 不知道需要下载哪个版本,或者下载的GPU驱动与CUDA安装包版本不匹配,导致报错
∙ 下载错误的GPU驱动,很多用户会下载GeForce消费卡驱动,不匹配,导致报错
∙ NVIDIA官网提供的下载源是国外源,网络不稳定导致下载慢、下载失败
∙ 不知道如何安装依赖包
∙ 在安装驱动或CUDA的过程中出现的问题无法解决
对于A100 卡裸金属实例,很多用户不知道还要额外安装与驱动版本对应的nvidia-fabricmanager软件
用户自己安装可能花费时间较久,在用户的应用部署起来之前就已经花费比较多的费用,用户体验很差。用户在安装过程中遇到的各种问题都会提工单寻求帮助,导致值班同学每天要处理很多安装软件相关的工单,占用了大量的时间。在这种情况下GPU自动安装诞生了。
GPU自动安装介绍
为解决用户的问题,提升用户体验,我们制定了2种解决方案:
∙ 在镜像市场提供预装好NVIDIA GPU驱动/CUDA/cuDNN软件的自定义镜像,用户在购买GPU实例时可以直接选择这些镜像来创建实例, 方便快捷,适用于对GPU驱动/CUDA版本要求不高的用户。
∙ 在GPU实例购买页面提供“安装GPU驱动”的勾选框,提供了多个GPU驱动、CUDA、cuDNN版本供客户灵活选择,用户在实例购买页面选择GPU实例规格后,对于支持GPU自动安装的公共镜像操作系统版本,可以选择自己想要安装的GPU驱动、CUDA、cuDNN版本,在实例创建并启动后会自动进行相关软件的下载和安装,无需用户参与。
如果在购买页没有勾选GPU自动安装,那么在实例创建后,在实例内执行自动安装脚本也可以实现NVIDIA GPU驱动及CUDA/cuDNN库的自动安装。
GPU自动安装的整个过程只需要10分钟左右,用户在登录实例后,如果安装正在进行,用户可以直观的看到安装正在进行到哪一步,在安装完成后也会提示用户安装是否成功。
此外,对于GPU云服务器提供的支持ERI的高带宽实例规格ebmgn7ex、ebmgn7v、ebmgn7ix,支持RMDA的高带宽超算集群实例规格sccgn7ex,如果想要使能eRDMA或RDMA,需要安装eRDMA/RDMA相关的软件栈,GPU自动安装也能帮助客户进行一键安装。
GPU自动安装极大的方便了用户安装使用GPU所必须的基础软件,提升了用户体验,在GPU自动安装发布后,GPU云服务器实例的工单量降低了1/3, 为值班同学节省了大量的时间。
GPU自动安装的使用
1) 购买实例时选择安装GPU驱动
在云服务器创建实例的过程中,选择要购买的具体规格,并在镜像区域的公共镜像中,选择所需的Linux操作系统及版本,选择后对于支持自动安装GPU驱动的规格和操作系统,会出现 “安装GPU驱动”勾选框,勾选后即可按需选择GPU驱动、CUDA 和 cuDNN 版本。如下图所示:
2) 实例购买后,自动安装GPU驱动
如果用户在创建实例时,没有选择安装GPU驱动, 对于支持自动安装GPU驱动的规格和操作系统,用户可以在实例内通过执行脚本的方式来自动安装GPU驱动、CUDA及cuDNN。
3) RDMA/eRDMA软件栈自动安装
4) 镜像市场购买
在镜像市场搜索NVIDIA关键字,可以找到并使用预装好GPU驱动/CUDA/cuDNN软件的镜像创建实例,免去安装过程,客户可以直接部署自己的应用,帮助客户节省时间。
更多关于GPU自动安装及如何使用的介绍可以参考帮助文档:https://help.aliyun.com/zh/egs/user-guide/create-a-linux-gpu-accelerated-instance-configured-with-a-gpu-driver