显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!

简介: 显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!


国际网络通信顶会SIGCOMM近日闭幕

阿里云共有7篇论文入选

其中,AI网络调度成果论文

斩获SIGCOMM 2024优胜奖!


图|阿里云获 SIGCOMM 2024 优胜奖论文


SIGCOMM 评审专家认为 ——

Crux解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。


此次,获奖论文Crux: GPU-Efficient Communication Scheduling for Deep Learning Training 介绍了阿里云自研的集合通信优化调度器 Crux,其可提升高达 14.8%的GPU 计算利用率。


阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是GPU集群的训练效率不高的基础性原因。


对此,团队从学术理论层面突破,证明了GPU利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。


126244c683f5eec8844d936370d4216e.png

图|阿里云自研集合通信优化调度器 Crux,

提升 GPU 计算利用率


实验结果表明,在96卡GPU测试环境中,Crux可以提高GPU计算利用率 8.3% 至 14.8%。在基于大规模生产跟踪仿真中,与Sincronia、TACCL和 CASSINI等已有方案相比,Crux可以将GPU计算利用率最多提高23%。据了解,Crux已被集成到阿里云自研通信库,实现规模化使用。


5a0aa0dfa1f3c6226f35408a9f849762.png

图|阿里云网络研发团队与大会程序委员会主席合影


从 2019 年以来,阿里云有近30篇成果论文先后发表在 SIGCOMM上,为国内机构之首。今年,阿里云有7篇论文入选SIGCOMM。除上述介绍的Crux论文外,今年关于智算集群网络架构HPN 7.0的成果论文,成为 SIGCOMM在AI智算集群网络架构领域的首篇论文。


HPN7.0架构面向AI时代对网络高性能需求而研发,针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。


369892d344061362b8bcf3eb1a99f1ef.png

图|HPN7.0架构:为AI设计的高性能网络集群


ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在 SIGCOMM上。2024 年度的SIGCOMM 仅录用 62 篇论文, 录取率不到17%,为近五年最低。SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。




/ END /

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的奥秘:探索神经网络的核心原理
本文将深入浅出地介绍深度学习的基本概念,包括神经网络的结构、工作原理以及训练过程。我们将从最初的感知机模型出发,逐步深入到现代复杂的深度网络架构,并探讨如何通过反向传播算法优化网络权重。文章旨在为初学者提供一个清晰的深度学习入门指南,同时为有经验的研究者回顾和巩固基础知识。
34 11
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的魔法:如何用神经网络解锁数据的奥秘
在人工智能的璀璨星空中,深度学习犹如一颗最亮的星,它以其强大的数据处理能力,改变了我们对世界的认知方式。本文将深入浅出地介绍深度学习的核心概念、工作原理及其在不同领域的应用实例,让读者能够理解并欣赏到深度学习技术背后的奇妙和强大之处。
25 3
|
15天前
|
人工智能 数据中心 云计算
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
9月3日,在2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等国内外十余家业界伙伴发起AI芯片互连开放生态ALS(ALink System)。
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
|
5天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习入门:理解卷积神经网络(CNN)
【9月更文挑战第14天】本文旨在为初学者提供一个关于卷积神经网络(CNN)的直观理解,通过简单的语言和比喻来揭示这一深度学习模型如何识别图像。我们将一起探索CNN的基本组成,包括卷积层、激活函数、池化层和全连接层,并了解它们如何协同工作以实现图像分类任务。文章末尾将给出一个简单的代码示例,帮助读者更好地理解CNN的工作原理。
20 7
|
3天前
|
机器学习/深度学习 算法 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第16天】本文将深入浅出地介绍卷积神经网络(CNN)的基本概念、结构和工作原理,同时通过一个实际的代码示例来展示如何在Python中使用Keras库构建一个简单的CNN模型进行图像识别。我们将看到,即使是初学者也能够通过简单的步骤实现深度学习的强大功能,进而探索其在复杂数据集上的应用潜力。
|
3天前
|
机器学习/深度学习 自动驾驶 搜索推荐
深度学习之探索神经网络、感知器与损失函数
在当今的数字化时代,深度学习作为一种强大的机器学习技术,正在迅速改变着我们的生活方式。无论是智能推荐系统、自动驾驶车辆还是语音识别应用,深度学习都在背后默默地发挥作用。
11 1
|
7天前
|
机器学习/深度学习 监控 并行计算
深度学习之生物网络推理
基于深度学习的生物网络推理利用深度学习技术来解析和理解生物网络(如基因调控网络、代谢网络、蛋白质-蛋白质相互作用网络等)的复杂关系和动态行为。
21 5
|
6天前
|
机器学习/深度学习 编解码 自然语言处理
深度学习中的对抗生成网络
本文深入探讨了深度学习中的一种重要模型——对抗生成网络(GAN)。通过详细介绍其基本原理、结构组成以及训练过程,揭示了GAN在数据生成方面的独特优势。同时,文章还讨论了GAN在图像处理、自然语言处理等领域的广泛应用,并指出了其面临的挑战及未来发展方向。
12 2
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:深度学习与神经网络
【9月更文挑战第11天】本文将深入探讨人工智能的核心领域——深度学习,以及其背后的神经网络技术。我们将从基础理论出发,逐步深入到实践应用,揭示这一领域的神秘面纱。无论你是AI领域的初学者,还是有一定基础的开发者,都能在这篇文章中获得新的启示和理解。让我们一起踏上这场探索之旅,揭开AI的神秘面纱,体验深度学习的魅力。
|
13天前
|
机器学习/深度学习 人工智能 算法
深度学习的奥秘:探索神经网络的魔法
在本文中,我们将一起踏上一场奇妙的旅程,探索深度学习背后的科学奥秘。通过简单易懂的语言和有趣的比喻,我们将解锁神经网络的强大力量,并了解它们如何改变我们的世界。无论你是科技爱好者还是对人工智能充满好奇的朋友,这篇文章都将为你打开一扇通往未来的大门。