【Hello AI】安装和使用AIACC-ACSpeed-分布式训练场景的通信优化库-阿里云开发者社区

【Hello AI】安装和使用AIACC-ACSpeed-分布式训练场景的通信优化库

2024-01-29 584

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AIACC-ACSpeed专注于分布式训练场景的通信优化库，通过模块化的解耦优化设计，实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。

AIACC-ACSpeed专注于分布式训练场景的通信优化库，通过模块化的解耦优化设计，实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。

前提条件

已创建阿里云GPU实例，且GPU实例需满足以下要求：

AIACC-ACSpeed（本文简称ACSpeed）v1.1.0支持PyTorch、Cuda、Python以及NGC镜像版本，版本对应关系如下所示。

类型	PyTorch Version	CUDA Version	Python Version
官方PyTorch版本	1.6.0	10.1	3.6/3.7/3.8
	1.8.0	10.1/10.2/11.1	3.6/3.7/3.8/3.9
	1.8.1	10.1/10.2/11.1	3.6/3.7/3.8/3.9
	1.9.0	10.2/11.1	3.6/3.7/3.8/3.9
	1.9.1	10.2/11.1	3.6/3.7/3.8/3.9
	1.10.0	10.2/11.1/11.3	3.6/3.7/3.8/3.9
	1.10.1	10.2/11.1/11.3	3.6/3.7/3.8/3.9
	1.10.2	10.2/11.1/11.3	3.6/3.7/3.8/3.9
	1.11.0	10.2/11.3	3.7/3.8/3.9/3.10
	1.12.0	10.2/11.3/11.6	3.7/3.8/3.9/3.10
	1.12.1	10.2/11.3/11.6	3.7/3.8/3.9/3.10
	1.13.0	11.6	3.7/3.8/3.9/3.10
	1.13.1	11.6	3.7/3.8/3.9/3.10
	2.0.0	11.7	3.7/3.8/3.9/3.10
NGC镜像版本（nvcr.io/nvidia/pytorch:22.06-py3）	1.13.0a0	11.7	3.8

wget https://ali-perseus-release.oss-cn-huhehaote.aliyuncs.com/ACSpeed/acspeed-1.1.0.tar.gz

pip install acspeed-1.1.0.tar.gz

使用ACSpeed时，通过适配代码来快速启用ACSpeed即可。

您仅需在训练代码主函数对应的文件上增加一行import命令导入ACSpeed代码即可，一般可以选择在torch导入的地方。命令行示例如下所示：

import torch
import acspeed

好啦！小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽，请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~