【Hello AI】AIACC-ACSpeed性能数据

简介: 本文展示了AIACC-ACSpeed的部分性能数据,相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。

本文展示了AIACC-ACSpeed的部分性能数据,相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。

背景信息

本文以AIACC-ACSpeed(简称ACSpeed)v1.0.2版本在阿里云某8卡机器上的多机性能数据为例,通过测试不同场景下的模型,展示ACSpeed的不同性能提升效果。如果您想了解更多机型性能测试效果,请联系我们

测试版本

  • ACSpeed版本:1.0.2
  • Cuda版本:11.1
  • torch版本:1.8.1+cu111
  • 实例类型:某8卡实例

性能效果

ACSpeed在多个模型下均有相应性能提升效果,整体有5%~200%的性能增益。通过测试ACSpeed训练多个模型后的性能效果,可以看到原生DDP的扩展性(即多机线性度)不佳时,ACSpeed的提升效果越明显,且ACSpeed不会出现性能回退的现象,性能效果展示如下图所示。

涉及的主要概念如下所示:

概念

说明

ddp_acc(横坐标)

表示PyTorch原生分布式DDP的多机多卡的扩展性。

多机多卡扩展性:即多机线性度=多机性能/单机性能/集群数,数值越低扩展性越差。

acc_ratio(纵坐标)

表示ACSpeed相对于原生DDP的性能指标的提升比值。例如,1.25表示ACSpeed的性能是原生DDP性能的1.25倍,即性能提升25%。

圆点

表示具体的某个模型配置的DDP的原生性能和ACSpeed的加速效果,不同颜色表示不同集群规模。

  • 蓝色圆点:表示集群数量为1。
  • 橙色圆点:表示集群数量为2。
  • 红色圆点:表示集群数量为4。
  • 绿色圆点:表示集群数量为8。

典型模型性能数据

本节仅展示了部分已测试的典型模型的性能数据信息。不同场景下的模型,通信计算的占比不同也会导致端到端的性能提升有所差异。如果您需要了解更多测试模型的性能数据,请联系我们。具体测试模型的性能数据如下:

  • 场景1:训练alexnet模型
  • Model:alexnet
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:128
  • Precision:amp

该场景下的alexnet模型训练后的性能数据如下所示:

  • 场景2:训练resnet18模型
  • Model:resnet18
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:16
  • Precision:amp

该场景下的resnet18模型训练后的性能数据如下所示:

  • 场景3:训练resnet50模型
  • Model:resnet50
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:32
  • Precision:amp

该场景下的resnet50模型训练后的性能数据如下所示:

  • 场景4:训练vgg16模型
  • Model:vgg16
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:64
  • Precision:amp

该场景下的vgg16模型训练后的性能数据如下所示:

  • 场景5:训练timm_vovnet模型
  • Model:timm_vovnet
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:32
  • Precision:amp

该场景下的timm_vovnet模型训练后的性能数据如下所示:

  • 场景6:训练timm_vision_transformer模型
  • Model:timm_vision_transformer
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:8
  • Precision:amp

该场景下的timm_vision_transformer模型训练后的性能数据如下所示:

  • 场景7:训练pytorch_unet模型
  • Model:pytorch_unet
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:1
  • Precision:amp

该场景下的pytorch_unet模型训练后的性能数据如下所示:

  • 场景8:训练hf_Bart模型
  • Model:hf_Bart
  • Domain:NLP
  • Subdomain:LANGUAGE_MODELING
  • Batch_size:4
  • Precision:amp

该场景下的hf_Bart模型训练后的性能数据如下所示:

  • 场景9:训练hf_Bert模型
  • Model:hf_Bert
  • Domain:NLP
  • Subdomain:LANGUAGE_MODELING
  • Batch_size:4
  • Precision:amp

该场景下的hf_Bert模型训练后的性能数据如下所示:

  • 场景10:训练speech_transformer模型
  • Model:speech_transformer
  • Domain:SPEECH
  • Subdomain:RECOGNITION
  • Batch_size:32
  • Precision:amp

该场景下的speech_transformer模型训练后的性能数据如下所示:

  • 场景11:训练tts_angular模型
  • Model:tts_angular
  • Domain:SPEECH
  • Subdomain:SYNTHESIS
  • Batch_size:64
  • Precision:amp

该场景下的tts_angular模型训练后的性能数据如下所示:

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
28天前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
12天前
|
人工智能 安全 API
AI数据荒雪上加霜!MIT:网页数据的公开共享正走向衰落
【9月更文挑战第7天】麻省理工学院的一项新研究表明,尽管人工智能(AI)领域迅速发展,但网页数据的公开共享正在减少,加剧了AI数据短缺的问题。AI模型训练依赖大量数据,而网页数据是关键来源之一,其共享减少将影响AI进步,并引发数据隐私和安全方面的担忧。然而,这也推动了对数据隐私保护的关注及新型数据获取方式的探索。研究详情参见:[论文链接](https://www.dataprovenance.org/consent-in-crisis-paper)。
45 9
|
12天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
14天前
|
SQL 人工智能 运维
在阿里云日志服务轻松落地您的AI模型服务——让您的数据更容易产生洞见和实现价值
您有大量的数据,数据的存储和管理消耗您大量的成本,您知道这些数据隐藏着巨大的价值,但是您总觉得还没有把数据的价值变现出来,对吗?来吧,我们用一系列的案例帮您轻松落地AI模型服务,实现数据价值的变现......
77 3
|
29天前
|
人工智能 异构计算
就AI 基础设施的演进与挑战问题之使用阿里云DeepGPU能带来性能提升的问题如何解决
就AI 基础设施的演进与挑战问题之使用阿里云DeepGPU能带来性能提升的问题如何解决
|
1月前
|
存储 边缘计算 人工智能
【边缘计算与AI】分析边缘计算在处理AI任务、优化响应速度和数据隐私保护方面的作用和潜力
边缘计算与AI的结合是当前技术发展的重要趋势,两者相互依存、相互促进,共同推动着数字化转型的深入发展。以下是对边缘计算与AI关系的详细分析
58 6
|
29天前
|
存储 人工智能
就AI 基础设施的演进与挑战问题之当Znode数据变更时会发生什么
就AI 基础设施的演进与挑战问题之当Znode数据变更时会发生什么
|
9天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
22 0
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,触手可及的健康
本文探讨了人工智能(AI)在医疗领域的应用及其潜力。从诊断辅助、个性化治疗到药物研发,AI正在改变我们理解健康和疾病的方式。同时,本文也讨论了AI面临的伦理挑战和数据隐私问题,呼吁建立相应的法律法规来保障患者权益。最后,本文对AI在未来医疗中的角色进行了展望,认为AI将继续推动医疗领域的创新和发展。
26 8
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,重塑健康格局
本文探讨了人工智能(AI)在医疗领域的应用及其对未来健康的深远影响。通过分析AI在疾病诊断、治疗和预防方面的具体案例,揭示了这一技术如何提升医疗服务的效率和准确性,并展望了AI在未来医疗中的潜力。
22 1