阿里云引领智算集群网络架构的新一轮变革

简介: 11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。

【阅读原文】戳:阿里云引领智算集群网络架构的新一轮变革


11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠生发表题为《规模x10驱动AI智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是Scale up网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+的路标规划,引起广泛关注。

 

 

 

 

过去一年,阿里云HPN7.0引领智算以太网生态蓬勃发展

 

 

 

模型的持续scaling,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长4-6倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每2年才一倍,无法满足算力增长的需求,所以算力来自于将更多的GPU进行集群化互联,网络在算力scaling中扮演关键的角色。

 

在2023年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google有基于私有协议的TPU集群,微软使用了NV提供的一整套IB方案,而阿里云、AWS等公司坚持使用开放的以太网来构建集群。一时间,以太网还是IB,成为智算集群架构选择的关键话题。阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了HPN7.0架构,采用业界首发的全自研51.2T交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署HPN7.0智算集群的同时,其论文被顶会SIGCOMM录取,成为网络顶会历史上首篇AI智算网络架构论文。

 

一年多时间过去了,阿里云HPN7.0已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和IB的争议已经落幕,以太网正在成为超大规模智算集群的行业主流

 

 

 

 

未来几年,X10规模将给网络带来新的重要问题

 

 

 

虽然以太网和IB的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向X10规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间,GPU资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是GPU Scale up范围也将更大,智算集群的网络架构也会因此产生深远的变革。

 

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论Scale up、Scale out都需要更加激进的规划。

 

 

 

 

GPU Scale up协议路线之争,Ethernet优势明显

 

 

 

到底什么是Scale up?简单来讲,Scale up就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是Scale out的数倍以上,可以在协议层面优化来支持内存语义。

 

不少人以为Scale up是机内互联,这是一种误解。在8卡系统的时代,因为8卡在一个OS内部所以确实是机内互联,然而,当NVL36、72这种AI rack的形态出现后,GPU Scale up就不是“机内互联”,而是一种新型的节点间网络互联。以NVL72为例,实际上是18台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽10倍于Scale out的大的带宽(7.2Tbps vs 800Gbps),此外还支持了内存操作语义,为了区分,我们继续称其为GPU Scale up。

 

 

GPU Scale up是AI系统发展的一个热门话题,备受关注。Scale up网络大体上可以分成2个技术方向。

 

1.以NV、Google为代表的私有协议、封闭系统方案(NVLink和TPU互联)。

 

2.以各大互联网和云计算公司自研GPU(微软、Meta、Tesla等),以及AMD、Intel为代表的基于Ethernet的网络传输方案。

 

Ethernet有超大带宽技术和强大的生态支撑,尤其是UEC、高通量以太网等开放组织针对Scale up进行协议的升级后,Ethernet支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋Scale up系统都选择了Ethernet,可以说Ethernet这些特质已经成为GPU Scale up网络快速落地的首选技术方案

 

 

 

 

计算和网络的新变革,Scale up融合架构优势明显

 

 

 

Scale up与Scale out如何协同工作是决定集群网络性能的关键。在今天的单机8卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的HPN7.0架构已经将万卡级别的通信性能发挥到极致。那将来Scale up扩展到多机系统,尤其是成百上千卡之后,Scale up与Scale out应该如何协同做到全局效率最高呢?机尾backend会继续沿着Scale up+Scale out两张网络各自发展,还是会融合兼顾?

 

当Ethernet成为Scale up的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享,Scale up范围内进行大带宽的TP、EP、CP等通信,多个Scale up域通过Scale out互联,进行DP、PP等通信,跨Scale up实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up和Scale out的以太网融合为一张网,通过将不同的Scale up域进行Scale out互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。

 

11.12-02-修改.png

 

 

 

 

未来可期,高通量以太网发布关键路标和超节点ENode+计划

 

 

 

在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的ENode+超节点路线,为高通量以太网的系统化落地构筑蓝图


 





我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3天前
|
负载均衡 Dubbo 算法
集群容错架构设计
集群容错架构设计
12 1
集群容错架构设计
|
1天前
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
14天前
|
存储 安全 数据安全/隐私保护
在阿里云快速启动Umami玩转网页分析
本文介绍了Umami的基本信息,并通过阿里云计算巢完成了Umami的快速部署,使用者不需要自己下载代码,不需要自己安装复杂的依赖,不需要了解底层技术,只需要在控制台图形界面点击几下鼠标就可以快速部署并启动Umami,非技术同学也能轻松搞定。
|
6天前
|
弹性计算 Kubernetes Cloud Native
云原生架构下的微服务设计原则与实践####
本文深入探讨了在云原生环境中,微服务架构的设计原则、关键技术及实践案例。通过剖析传统单体架构面临的挑战,引出微服务作为解决方案的优势,并详细阐述了微服务设计的几大核心原则:单一职责、独立部署、弹性伸缩和服务自治。文章还介绍了容器化技术、Kubernetes等云原生工具如何助力微服务的高效实施,并通过一个实际项目案例,展示了从服务拆分到持续集成/持续部署(CI/CD)流程的完整实现路径,为读者提供了宝贵的实践经验和启发。 ####
|
29天前
|
缓存 监控 API
探索微服务架构中的API网关模式
【10月更文挑战第5天】随着微服务架构的兴起,企业纷纷采用这一模式构建复杂应用。在这种架构下,应用被拆分成若干小型、独立的服务,每个服务围绕特定业务功能构建并通过HTTP协议协作。随着服务数量增加,统一管理这些服务间的交互变得至关重要。API网关作为微服务架构的关键组件,承担起路由请求、聚合数据、处理认证与授权等功能。本文通过一个在线零售平台的具体案例,探讨API网关的优势及其实现细节,展示其在简化客户端集成、提升安全性和性能方面的关键作用。
70 2
|
3天前
|
监控 安全 应用服务中间件
微服务架构下的API网关设计策略与实践####
本文深入探讨了在微服务架构下,API网关作为系统统一入口点的设计策略、实现细节及其在实际应用中的最佳实践。不同于传统的摘要概述,本部分将直接以一段精简的代码示例作为引子,展示一个基于NGINX的简单API网关配置片段,随后引出文章的核心内容,旨在通过具体实例激发读者兴趣,快速理解API网关在微服务架构中的关键作用及实现方式。 ```nginx server { listen 80; server_name api.example.com; location / { proxy_pass http://backend_service:5000;
|
5天前
|
缓存 监控 API
探索微服务架构中的API网关模式
随着微服务架构的兴起,API网关成为管理和服务间交互的关键组件。本文通过在线零售公司的案例,探讨了API网关在路由管理、认证授权、限流缓存、日志监控和协议转换等方面的优势,并详细介绍了使用Kong实现API网关的具体步骤。
19 3
|
6天前
|
运维 NoSQL Java
后端架构演进:微服务架构的优缺点与实战案例分析
【10月更文挑战第28天】本文探讨了微服务架构与单体架构的优缺点,并通过实战案例分析了微服务架构在实际应用中的表现。微服务架构具有高内聚、低耦合、独立部署等优势,但也面临分布式系统的复杂性和较高的运维成本。通过某电商平台的实际案例,展示了微服务架构在提升系统性能和团队协作效率方面的显著效果,同时也指出了其带来的挑战。
38 4
|
5天前
|
存储 缓存 监控
探索微服务架构中的API网关模式
探索微服务架构中的API网关模式
18 2
|
5天前
|
JavaScript 持续交付 Docker
解锁新技能:Docker容器化部署在微服务架构中的应用
【10月更文挑战第29天】在数字化转型中,微服务架构因灵活性和可扩展性成为企业首选。Docker容器化技术为微服务的部署和管理带来革命性变化。本文探讨Docker在微服务架构中的应用,包括隔离性、可移植性、扩展性、版本控制等方面,并提供代码示例。
30 1