开发者社区> 问答> 正文

AI加速器分布式通信优化方法是什么?

已解决

AI加速器分布式通信优化方法是什么?

展开
收起
阿阿里云 2022-04-06 21:55:09 840 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    (1)计算和通信的重叠。传统的计算和通信是串行的,即先做完梯度计算、再做 梯度通信,我们的第一个优化工作是将计算和通信重叠起来,尽量减少通信的开销。 (2)去中心化梯度协商。传统分布式梯度协商方式是根节点和所有节点都协商, 因此根节点的负担会随着节点数增加而大幅升高。而我们采取的去中心化的梯度协商 方式,将大规模下梯度协商的复杂度降低了一个数量级。 (3)梯度压缩。将要传输的梯度从 FP32 压缩到 FP16,并建立了相应的数据缩放 机制,从而防止精度损失。 (4)分级通信优化。传统的环形通信方式是将所有节点上的 GPU 形成一个大环, 致使其整体性能在以太网的通信上受到限制。我们做了分级通信的优化,首先在节点 内部的 GPU 上做一级规约通信,每个节点都规约到一块 GPU 上,然后每个节点的这个 GPU 再做二级规约通信。这样一方面减少了以太网上传输的数据量,另一方面通过流水 线将节点内部的规约通信和节点之间的规约通信重叠起来,减少了整体通信时间。

    《弹性计算:无处不在的算力》电子书可以通过以下链接下载:https://developer.aliyun.com/topic/download?id=7996"

    2022-04-06 23:31:08
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。
问答排行榜
最热
最新

相关电子书

更多
Lindorm:打造AI时代的 一体化数据平台 立即下载
Lindorm AI 能力介绍 立即下载
2023云栖大会:PolarDB for AI 立即下载