带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
简介: 带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件

简介:GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDAcuDNN等软件。

背景

GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、CUDAcuDNN等软件。

安装NVIDIA GPU驱动和CUDA等软件的流程大概分为如下几步:

∙        确定需要使用的GPU驱动、CUDA版本

∙        找到正确的下载链接

∙        下载安装包

∙        安装依赖包

∙        安装驱动或CUDA

GPU云服务器售卖的NVIDIA卡规格实例基本都是Telsa系列的卡,我们的很多用户以前并没有使用过,或者很多用户以前并没有使用过NVIDIA GPU,更不要说安装这些基础软件了,那么客户在实际的安装操作过程中会遇到很多问题:

∙        不知道需要下载哪个版本,或者下载的GPU驱动与CUDA安装包版本不匹配,导致报错

∙        下载错误的GPU驱动,很多用户会下载GeForce消费卡驱动,不匹配,导致报错

∙        NVIDIA官网提供的下载源是国外源,网络不稳定导致下载慢、下载失败

∙        不知道如何安装依赖包

∙        在安装驱动或CUDA的过程中出现的问题无法解决

对于A100 卡裸金属实例,很多用户不知道还要额外安装与驱动版本对应的nvidia-fabricmanager软件

用户自己安装可能花费时间较久,在用户的应用部署起来之前就已经花费比较多的费用,用户体验很差。用户在安装过程中遇到的各种问题都会提工单寻求帮助,导致值班同学每天要处理很多安装软件相关的工单,占用了大量的时间。在这种情况下GPU自动安装诞生了。

GPU自动安装介绍

为解决用户的问题,提升用户体验,我们制定了2种解决方案:

∙        在镜像市场提供预装好NVIDIA GPU驱动/CUDA/cuDNN软件的自定义镜像,用户在购买GPU实例时可以直接选择这些镜像来创建实例, 方便快捷,适用于对GPU驱动/CUDA版本要求不高的用户。

∙        GPU实例购买页面提供“安装GPU驱动”的勾选框,提供了多个GPU驱动、CUDAcuDNN版本供客户灵活选择,用户在实例购买页面选择GPU实例规格后,对于支持GPU自动安装的公共镜像操作系统版本,可以选择自己想要安装的GPU驱动、CUDAcuDNN版本,在实例创建并启动后会自动进行相关软件的下载和安装,无需用户参与。

如果在购买页没有勾选GPU自动安装,那么在实例创建后,在实例内执行自动安装脚本也可以实现NVIDIA GPU驱动及CUDA/cuDNN库的自动安装。

GPU自动安装的整个过程只需要10分钟左右,用户在登录实例后,如果安装正在进行,用户可以直观的看到安装正在进行到哪一步,在安装完成后也会提示用户安装是否成功。

此外,对于GPU云服务器提供的支持ERI的高带宽实例规格ebmgn7exebmgn7vebmgn7ix,支持RMDA的高带宽超算集群实例规格sccgn7ex,如果想要使能eRDMARDMA,需要安装eRDMA/RDMA相关的软件栈,GPU自动安装也能帮助客户进行一键安装。

GPU自动安装极大的方便了用户安装使用GPU所必须的基础软件,提升了用户体验,在GPU自动安装发布后,GPU云服务器实例的工单量降低了1/3, 为值班同学节省了大量的时间。

GPU自动安装的使用

1)     购买实例时选择安装GPU驱动

在云服务器创建实例的过程中,选择要购买的具体规格,并在镜像区域的公共镜像中,选择所需的Linux操作系统及版本,选择后对于支持自动安装GPU驱动的规格和操作系统,会出现 “安装GPU驱动”勾选框,勾选后即可按需选择GPU驱动、CUDA cuDNN 版本。如下图所示:

image.png

2)     实例购买后,自动安装GPU驱动

如果用户在创建实例时,没有选择安装GPU驱动, 对于支持自动安装GPU驱动的规格和操作系统,用户可以在实例内通过执行脚本的方式来自动安装GPU驱动、CUDAcuDNN。

image.png

3)     RDMA/eRDMA软件栈自动安装

image.png

4)     镜像市场购买

在镜像市场搜索NVIDIA关键字,可以找到并使用预装好GPU驱动/CUDA/cuDNN软件的镜像创建实例,免去安装过程,客户可以直接部署自己的应用,帮助客户节省时间。

更多关于GPU自动安装及如何使用的介绍可以参考帮助文档:https://help.aliyun.com/zh/egs/user-guide/create-a-linux-gpu-accelerated-instance-configured-with-a-gpu-driver

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4月前
|
人工智能 自动驾驶 vr&ar
探索GPU算力平台的创新应用:从游戏到自动驾驶的跨越
【8月更文第5天】本文探讨了GPU(图形处理器)在现代计算中的角色转变,从最初的图形渲染到如今成为人工智能和高性能计算的重要组成部分。我们将通过几个具体的案例研究,包括游戏渲染、虚拟现实(VR)以及自动驾驶系统,来展示GPU是如何推动这些领域的进步和发展。
89 1
|
2月前
|
测试技术 异构计算
|
2月前
|
人工智能 调度 开发工具
xGPU来啦!免费GPU资源开发花样AI应用!
为了降低AI应用服务和推广的门槛,解决开发者面临的实际痛点,ModelScope社区推出 xGPU 服务,让大家能够免费使用高性能 GPU 资源,托管自己的AI应用服务。
|
3月前
|
存储 并行计算 算法
CUDA统一内存:简化GPU编程的内存管理
在GPU编程中,内存管理是关键挑战之一。NVIDIA CUDA 6.0引入了统一内存,简化了CPU与GPU之间的数据传输。统一内存允许在单个地址空间内分配可被两者访问的内存,自动迁移数据,从而简化内存管理、提高性能并增强代码可扩展性。本文将详细介绍统一内存的工作原理、优势及其使用方法,帮助开发者更高效地开发CUDA应用程序。
|
4月前
|
并行计算 TensorFlow 算法框架/工具
Windows11+CUDA12.0+RTX4090如何配置安装Tensorflow2-GPU环境?
本文介绍了如何在Windows 11操作系统上,配合CUDA 12.0和RTX4090显卡,通过创建conda环境、安装特定版本的CUDA、cuDNN和TensorFlow 2.10来配置TensorFlow GPU环境,并提供了解决可能遇到的cudnn库文件找不到错误的具体步骤。
463 3
|
4月前
|
TensorFlow 算法框架/工具 异构计算
【Tensorflow 2】查看GPU是否能应用
提供了检查TensorFlow是否能应用GPU的方法。
23 2
|
4月前
|
并行计算 TensorFlow 算法框架/工具
Window安装TensorFlow-GPU版本
Window安装TensorFlow-GPU版本
64 0
|
5月前
|
Linux TensorFlow 算法框架/工具
安装GPU版本的TensorFlow
【7月更文挑战第3天】安装GPU版本的TensorFlow。
232 1
|
6月前
|
运维 Serverless 文件存储
Serverless 应用引擎产品使用合集之函数实例运行期间相关的依赖资源(vcpu、临时磁盘、GPU)是否会随函数运行完毕而释放
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
6月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU服务器租用费用_NVIDIA A10、V100、T4、P4、P100 GPU卡
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等多种GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持2400万PPS及160Gbps内网带宽。实例规格多样,如A10卡GN7i(3213.99元/月)、V100-16G卡GN6v(3830.00元/月)等。适用于深度学习、科学计算、图形处理等场景。GPU软件如AIACC-Training、AIACC-Inference助力性能优化。购买方式灵活,客户案例包括深势科技、流利说、小牛翻译。
728 0

相关产品

  • GPU云服务器