【Hello AI】安装和使用AIACC-ACSpeed-分布式训练场景的通信优化库

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
简介: AIACC-ACSpeed专注于分布式训练场景的通信优化库,通过模块化的解耦优化设计,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。

AIACC-ACSpeed专注于分布式训练场景的通信优化库,通过模块化的解耦优化设计,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。

前提条件

已创建阿里云GPU实例,且GPU实例需满足以下要求:

  • 操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。
  • 已安装NVIDIA Driver和CUDA 10.0或以上版本。

支持的版本列表

AIACC-ACSpeed(本文简称ACSpeed)v1.1.0支持PyTorch、Cuda、Python以及NGC镜像版本,版本对应关系如下所示。

类型

PyTorch Version

CUDA Version

Python Version

官方PyTorch版本

1.6.0

10.1

3.6/3.7/3.8

1.8.0

10.1/10.2/11.1

3.6/3.7/3.8/3.9

1.8.1

10.1/10.2/11.1

3.6/3.7/3.8/3.9

1.9.0

10.2/11.1

3.6/3.7/3.8/3.9

1.9.1

10.2/11.1

3.6/3.7/3.8/3.9

1.10.0

10.2/11.1/11.3

3.6/3.7/3.8/3.9

1.10.1

10.2/11.1/11.3

3.6/3.7/3.8/3.9

1.10.2

10.2/11.1/11.3

3.6/3.7/3.8/3.9

1.11.0

10.2/11.3

3.7/3.8/3.9/3.10

1.12.0

10.2/11.3/11.6

3.7/3.8/3.9/3.10

1.12.1

10.2/11.3/11.6

3.7/3.8/3.9/3.10

1.13.0

11.6

3.7/3.8/3.9/3.10

1.13.1

11.6

3.7/3.8/3.9/3.10

2.0.0

11.7

3.7/3.8/3.9/3.10

NGC镜像版本(nvcr.io/nvidia/pytorch:22.06-py3)

1.13.0a0

11.7

3.8

安装AIACC-ACSpeed

  1. 执行如下命令,下载ACSpeed v1.1.0。
wget https://ali-perseus-release.oss-cn-huhehaote.aliyuncs.com/ACSpeed/acspeed-1.1.0.tar.gz
  1. 执行如下命令,安装ACSpeed v1.1.0。
pip install acspeed-1.1.0.tar.gz

使用AIACC-ACSpeed

使用ACSpeed时,通过适配代码来快速启用ACSpeed即可。

您仅需在训练代码主函数对应的文件上增加一行import命令导入ACSpeed代码即可,一般可以选择在torch导入的地方。命令行示例如下所示:

import torch
import acspeed

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
22天前
|
人工智能 IDE 编译器
idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡
idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡
102 15
idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡
|
3月前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型的分布式训练
使用Python实现深度学习模型的分布式训练
204 73
|
26天前
|
人工智能 IDE 程序员
通义灵码 2.0 AI 程序员下载安装
通义灵码2.0 AI程序员支持JetBrains IDEs、Visual Studio Code及远程开发场景,暂不支持Visual Studio。用户可通过插件市场搜索“TONGYI Lingma”安装,确保版本升级至2.0以上。安装后登录阿里云账号即可使用,个人版和企业版均免费。新手可参考官方指南进行IDE安装配置。
751 11
|
3天前
|
存储 监控 TensorFlow
DeepRec Extension 打造稳定高效的分布式训练
DeepRec Extension 打造稳定高效的分布式训练
|
3天前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
|
5天前
|
机器学习/深度学习 存储
DeepSeek进阶开发与应用4:DeepSeek中的分布式训练技术
随着深度学习模型和数据集规模的扩大,单机训练已无法满足需求,分布式训练技术应运而生。DeepSeek框架支持数据并行和模型并行两种模式,通过将计算任务分配到多个节点上并行执行,显著提高训练效率。本文介绍DeepSeek中的分布式训练技术,包括配置与启动方法,帮助用户轻松实现大规模模型训练。数据并行通过`MirroredStrategy`同步梯度,适用于大多数模型;模型并行则通过`ParameterServerStrategy`异步处理大模型。DeepSeek简化了分布式环境配置,支持单机多卡和多机多卡等场景。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。
389 12
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
|
3月前
|
人工智能 弹性计算 监控
分布式大模型训练的性能建模与调优
阿里云智能集团弹性计算高级技术专家林立翔分享了分布式大模型训练的性能建模与调优。内容涵盖四大方面:1) 大模型对AI基础设施的性能挑战,强调规模增大带来的显存和算力需求;2) 大模型训练的性能分析和建模,介绍TOP-DOWN和bottom-up方法论及工具;3) 基于建模分析的性能优化,通过案例展示显存预估和流水线失衡优化;4) 宣传阿里云AI基础设施,提供高效算力集群、网络及软件支持,助力大模型训练与推理。
|
1天前
|
人工智能 运维 架构师
Serverless + AI 让应用开发更简单,加速应用智能化
Serverless + AI 让应用开发更简单,加速应用智能化
|
1天前
|
人工智能 Java API
Java 也能快速搭建 AI 应用?一文带你玩转 Spring AI 可观测性
Java 也能快速搭建 AI 应用?一文带你玩转 Spring AI 可观测性