【Hello AI】安装和使用AIACC-AGSpeed(优化PyTorch深度学习模型)

简介: AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。

AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。

前提条件

已创建阿里云GPU实例,且GPU实例需满足以下要求:

  • 操作系统为Alibaba Cloud Linux、CentOS 7.x或Ubuntu 16.04以上版本。
  • 已安装NVIDIA Driver和CUDA 10.0或以上版本。

支持的版本列表

AGSpeed支持Python、PyTorch以及CUDA版本,版本对应关系及下载地址如下所示。

安装AGSpeed

  1. 下载Wheel软件包。

根据您环境中的Python、PyTorch以及CUDA版本,在支持的版本列表中选择相应wheel包进行下载。更多信息,请参见支持的版本列表

  1. 执行如下命令,安装AGSpeed。

在环境中直接使用pip install命令安装即可。

pip install ${WHEEL_NAME} # 这里的${WHEEL_NAME}替换为您下载的具体wheel软件包名称

使用AGSpeed

建议您尽可能在一切准备工作就绪,即刚好准备执行Train Loop之前,使用agspeed.optimize()对模型进行封装。

例如,模型已经放置到对应的device,并使用DDP优化等操作前,使用agspeed.optimize()对模型进行封装。

  1. 执行如下命令,适配代码。
import agspeed                  # 导入AGSpeed,用于在PyTorch后端中注册AGSpeed的IR优化Pass和优化后的NvFuser后端。
model = agspeed.optimize(model) # 优化模型,用于模型自动调用计算图抓取的API,并将计算图交由AGSpeed Backend Autotuner优化。
  1. 如果您的模型使用的是PyTorch AMP混合精度训练,需要额外在autocast()上下文中增加cache_enabled=False参数,示例代码如下所示。

说明本步骤仅适用于模型使用的是PyTorch AMP混合精度训练场景,使用其他精度(例如FP32)训练场景,请跳过本步骤。

因为TorchDynamo在抓取计算图后,会使用torch.jit.trace进一步将该计算图转换为TorchScript IR,从而调用后端进行优化,在autocast()上下文中直接调用torch.jit.trace会引发冲突,所以需要关闭cache_enabled参数,即您还需要额外在autocast()上下文中增加cache_enabled=False。更多信息,请参见PyTorch commit 

from torch.cuda.amp.autocast_model import autocast
# ...
# 在autocast上下文参数中添加cache_enabled=False
with autocast(cache_enabled=False):
    loss = model(inputs)
scaler.scale(loss).backward()
scaler.step(optimizer)
# ...
  1. 如果您使用的是PyTorch 1.12.x版本,且待训练模型中包含SiLU激活函数,请使用LD_PRELOAD环境变量导入SiLU激活函数符号微分公式。

说明本步骤仅适用于环境为PyTorch 1.12.x版本且待训练模型中包含SiLU激活函数场景,其他场景请跳过本步骤。

PyTorch 1.12.x版本中,TorchScript后端不包含aten::silu的符号微分公式,从而导致aten::silu op不会被纳入可微分子图的范畴,也就无法被后端的NvFuser融合。由于PyTorch的底层实现机制不允许您动态添加符号微分公式,因此AGSpeed将SiLU的符号微分公式集成在另一个动态链接库中(即LD_PRELOAD),将aten::silu的符号微分公式补充到TorchScript后端。在启动训练前,建议您使用LD_PRELOAD环境变量导入SiLU激活函数符号微分公式。

  1. 执行以下命令,查看AGSpeed安装路径。
python -c "import agspeed; print(agspeed.__path__[0])"

返回页面显示如下,获取AGSpeed安装路径。

  1. 执行如下命令,确认上述路径下是否包含libsymbolic_expand.so文件。
ls -l ${your_agspeed_install_path} # 将${your_agspeed_install_path}替换为您机器上的AGSpeed安装路径。

返回页面显示如下,表示该路径下已包含libsymbolic_expand.so文件。

  1. 执行以下命令,导入LD_PRELOAD环境变量。
# 将${your_agspeed_install_path}替换为您机器上的AGSpeed安装路径。
export LD_PRELOAD=${your_agspeed_install_path}/libsymbolic_expand.so
# Start Training...

运行过程中显示如下,表示已将aten::silu的符号微分公式补充到TorchScript后端。

代码示例

在您的训练代码中适配AGSpeed的代码示例如下所示,本示例中,代码前的+号表示本代码行属于新增代码。

+ import agspeed
  # 定义dataloader
  dataloader = ...
  # 定义模型对象
  model = ResNet()
  # 设置模型device
  model.to(device)
  # 定义优化器
  optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
  # 设置DDP
  if distributed:
      model = DDP(model)
+ model = agspeed.optimize(model)
  ############################## Train Loop分为FP32和AMP两种情况演示 ##############################
    ############### FP32 ###############
    # 若是以默认的FP32精度进行训练,不需要修改TrainLoop
  for data, target in dataloader:
      loss = model(data)
      loss.backward()
      optimizer.step()
      optimizer.zero_grad()
    ############### FP32 ###############
    ############### AMP ###############
    # 若是以混合精度进行训练,需要在autocast上下文中增加cache_enabled=False
+ with autocast(cache_enabled=False):
      for data, target in dataloader:
        loss = model(data)
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        optimizer.zero_grad()
        scaler.update()
    ############### AMP ###############
  ############################## 通过LD_PRELOAD增加SiLU符号微分公式 ##############################
 # 显示的路径为您机器上的AGSpeed安装路径
  python -c "import agspeed; print(agspeed.__path__[0])"
 # 将${your_agspeed_install_path}替换为您机器上的AGSpeed安装路径
+ export LD_PRELOAD=${your_agspeed_install_path}/libsymbolic_expand.so
 # 执行训练命令
 python train.py

Log示例

Log示例用于帮助您确认是否已成功启用了AGSpeed的加速功能。

  • AGSpeed导入成功Log

导入AGSpeed时会自动注册AGSpeed的TorchScript IR优化Pass和优化后的NvFuser后端,如果导入操作完成后,出现以下Log表示AGSpeed已成功导入,您可以放心执行下一步操作。

  • AGSpeed Autotuning Log

AGSpeed会在训练过程中的前几个步骤中进行Autotuning操作,自动选择性能最佳的后端,如果训练过程的Autotuning操作中,出现以下Log表示AGSpeed加速功能已成功启用。

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
13天前
|
机器学习/深度学习 人工智能 PyTorch
深度学习领域中pytorch、onnx和ncnn的关系
PyTorch、ONNX 和 NCNN 是深度学习领域中的三个重要工具或框架,它们在模型开发、转换和部署过程中扮演着不同但相互关联的角色。
43 11
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:深度学习与神经网络
【9月更文挑战第11天】本文将深入探讨人工智能的核心领域——深度学习,以及其背后的神经网络技术。我们将从基础理论出发,逐步深入到实践应用,揭示这一领域的神秘面纱。无论你是AI领域的初学者,还是有一定基础的开发者,都能在这篇文章中获得新的启示和理解。让我们一起踏上这场探索之旅,揭开AI的神秘面纱,体验深度学习的魅力。
|
13天前
|
机器学习/深度学习 存储 人工智能
基于深度学习的认知架构的AI
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统,旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统
26 3
|
14天前
|
机器学习/深度学习 人工智能 搜索推荐
揭秘AI的魔法:深度学习如何改变世界
在这篇文章中,我们将一起探索深度学习——一种强大的人工智能技术。我们将从基础开始,了解什么是深度学习以及它如何工作。然后,我们会看到深度学习是如何影响我们日常生活的各个方面,从医疗到自动驾驶汽车,再到个性化推荐系统。最后,我们将讨论深度学习面临的挑战和未来的可能性。让我们一起揭开深度学习的神秘面纱,看看这个“魔法”是如何改变我们的世界的。
|
9天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
22 0
|
19天前
|
UED 开发者
哇塞!Uno Platform 数据绑定超全技巧大揭秘!从基础绑定到高级转换,优化性能让你的开发如虎添翼
【8月更文挑战第31天】在开发过程中,数据绑定是连接数据模型与用户界面的关键环节,可实现数据自动更新。Uno Platform 提供了简洁高效的数据绑定方式,使属性变化时 UI 自动同步更新。通过示例展示了基本绑定方法及使用 `Converter` 转换数据的高级技巧,如将年龄转换为格式化字符串。此外,还可利用 `BindingMode.OneTime` 提升性能。掌握这些技巧能显著提高开发效率并优化用户体验。
38 0
|
19天前
|
机器学习/深度学习 PyTorch TensorFlow
深度学习框架之争:全面解析TensorFlow与PyTorch在功能、易用性和适用场景上的比较,帮助你选择最适合项目的框架
【8月更文挑战第31天】在深度学习领域,选择合适的框架至关重要。本文通过开发图像识别系统的案例,对比了TensorFlow和PyTorch两大主流框架。TensorFlow由Google开发,功能强大,支持多种设备,适合大型项目和工业部署;PyTorch则由Facebook推出,强调灵活性和速度,尤其适用于研究和快速原型开发。通过具体示例代码展示各自特点,并分析其适用场景,帮助读者根据项目需求和个人偏好做出明智选择。
28 0
|
23天前
|
机器学习/深度学习 PyTorch 编译器
PyTorch 与 TorchScript:模型的序列化与加速
【8月更文第27天】PyTorch 是一个非常流行的深度学习框架,它以其灵活性和易用性而著称。然而,当涉及到模型的部署和性能优化时,PyTorch 的动态计算图可能会带来一些挑战。为了解决这些问题,PyTorch 引入了 TorchScript,这是一个用于序列化和优化 PyTorch 模型的工具。本文将详细介绍如何使用 TorchScript 来序列化 PyTorch 模型以及如何加速模型的执行。
34 4
|
21天前
|
机器学习/深度学习 边缘计算 PyTorch
PyTorch 与边缘计算:将深度学习模型部署到嵌入式设备
【8月更文第29天】随着物联网技术的发展,越来越多的数据处理任务开始在边缘设备上执行,以减少网络延迟、降低带宽成本并提高隐私保护水平。PyTorch 是一个广泛使用的深度学习框架,它不仅支持高效的模型训练,还提供了多种工具帮助开发者将模型部署到边缘设备。本文将探讨如何将PyTorch模型高效地部署到嵌入式设备上,并通过一个具体的示例来展示整个流程。
82 1
|
23天前
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch与Hugging Face Transformers:快速构建先进的NLP模型
【8月更文第27天】随着自然语言处理(NLP)技术的快速发展,深度学习模型已经成为了构建高质量NLP应用程序的关键。PyTorch 作为一种强大的深度学习框架,提供了灵活的 API 和高效的性能,非常适合于构建复杂的 NLP 模型。Hugging Face Transformers 库则是目前最流行的预训练模型库之一,它为 PyTorch 提供了大量的预训练模型和工具,极大地简化了模型训练和部署的过程。
51 2