AI训练性能提升30%,阿里云发布GPU计算裸金属实例ebmgn7ex

简介: ChatGPT、AIGC(人工智能生成内容)等技术潮流快速兴起,让普通人也感受到了人工智能技术应用落地对用户体验带来的巨大改变。应用的快速落地,离不开背后基础设施的支撑。人工智能模型的训练场景,往往要求高算力、高吞吐、低延时,可以大大加快训练速度,加速模型迭代。

ChatGPT、AIGC(人工智能生成内容)等技术潮流快速兴起,让普通人也感受到了人工智能技术应用落地对用户体验带来的巨大改变。应用的快速落地,离不开背后基础设施的支撑。人工智能模型的训练场景,往往要求高算力、高吞吐、低延时,可以大大加快训练速度,加速模型迭代。


近日,阿里云发布最新一代面向  AI 训练场景的 GPU 计算型裸金属实例规格族 ebmgn7ex,相较于上一代搭载了 A100 GPU 的裸金属计算实例  ebmgn7e,ebmgn7ex 的带宽提升了 150%、延时降低了 50%,整体 AI 训练场景性能提升约 30%,性价比提升约  20%~30%。


该实例主要适用于自动驾驶、AI  图像识别、语音识别、语义识别、自动控制等人工智能场景,面向互联网、技术服务和自动驾驶等高新技术行业,以及高校、实验室等科研院所对 AI  技术领域进行探索;同时,也十分适用于高性能计算场景,如石油、气象、地质、工业仿真、机械、水文等行业与研究中的仿真模拟应用,以及经济金融领域的预测计算等。


据阿里云弹性计算产品专家介绍,ebmgn7ex  实例采用阿里云自研的云基础设施处理器 CIPU,带宽升级至 160G,满足大多数模型的训练要求;同时利用阿里云自研的 eRDMA  大规模加速能力,GPU以RDMA 接入 TCP overlay 网络,以最低 8 微秒延迟支持 GPU Direct(GPU 直通技术),使多机 AI 训练更高效,更具弹性。基于以上能力,用户可以快速灵活地构建多机 GPU 计算集群。


1.jpg


传统 RDMA 网络低延时而难以扩展,大大限制了其使用场景。阿里云自研的 eRDMA 网络,兼具了低延时和支持大规模组网的优势,使得 gn7ex 实例可部署于阿里云所有可用区(Availible Zone,简称 AZ),可在主要地域实现任意数量集群的快速搭建,帮助企业快速部署人工智能模型。


GPU eRDMA实例.jpg

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
7天前
|
存储 人工智能 算法
【AI系统】计算与调度
本文探讨了计算与调度的概念,特别是在神经网络和图像处理中的应用。通过分离算法定义和计算组织,Halide 等工具能够显著提升图像处理程序的性能,同时保持代码的简洁性和可维护性。文章详细介绍了计算与调度的基本概念、调度树的构建与约束,以及如何通过调度变换优化计算性能。此外,还讨论了自动调优方法在大规模调度空间中的应用,展示了如何通过探索和预测找到最优的调度方案。
27 0
|
3天前
|
人工智能 Java Serverless
阿里云函数计算助力AI大模型快速部署
随着人工智能技术的快速发展,AI大模型已经成为企业数字化转型的重要工具。然而,对于许多业务人员、开发者以及企业来说,探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能,难以快速上手AI模型;开发者可能受限于GPU资源,无法高效构建和部署AI应用;企业则希望简化技术门槛,以更低的成本和更高的效率利用AI大模型。
34 12
|
5天前
|
存储 人工智能 算法
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
58 34
【AI系统】计算图的优化策略
|
3天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
36 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
4天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
22 5
【AI系统】计算图的控制流实现
|
4天前
|
机器学习/深度学习 存储 人工智能
【AI系统】计算图与自动微分
自动求导利用链式法则计算雅可比矩阵,从结果节点逆向追溯计算路径,适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中,自动微分与反向传播紧密相连,通过构建计算图实现高效梯度计算,支持动态和静态计算图两种模式。动态图如PyTorch,适合灵活调试;静态图如TensorFlow,利于性能优化。
26 6
【AI系统】计算图与自动微分
|
4天前
|
机器学习/深度学习 人工智能 算法
【AI系统】计算图挑战与未来
当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
34 5
【AI系统】计算图挑战与未来
|
4天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图基本介绍
近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
24 4
【AI系统】计算图基本介绍
|
5天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
28 4
【AI系统】计算图优化架构
|
5天前
|
机器学习/深度学习 存储 人工智能
【AI系统】自定义计算图 IR
本文介绍了模型转换的方法及流程,重点讲解了计算图的自定义方法和优化技术。通过IR(Intermediate Representation)将不同AI框架的模型转换为统一格式,实现跨平台高效部署。计算图由张量和算子构成,支持多种数据类型和内存排布格式,通过算子融合等优化技术提高模型性能。文章还详细说明了如何使用FlatBuffers定义计算图结构,包括张量、算子和网络模型的定义,为自定义神经网络提供了实践指南。
20 3
【AI系统】自定义计算图 IR

相关产品

  • GPU云服务器