详解灵骏智能算力之可预期高性能网络

简介: 从灵骏解析阿里云可预期高性能网络

首图-图标.png

【阅读原文】戳:详解灵骏智能算力之可预期高性能网络


8月30日下午,阿里云重磅发布飞天智算平台,其中新一代智能计算产品——「灵骏」闪亮登场!灵骏智能计算基于阿里云自研高性能可预期数据中心网络,可轻松支持集群扩展到万卡规模,实现端到端时延降低90%,从而为人工智能等应用提供高效的绿色算力。本文将为大家揭开阿里云高性能可预期数据中心网络的神秘面纱。


1.png

图 | 阿里云重磅发布新一代智能计算产品——「灵骏」


阿里云高性能可预期数据中心网络的核心技术包括:


●  自研High Performance Network(HPN)高性能网络架构;


●  基于自研交换机和智能网卡的端网融合核心技术体系;


统一的高性能网络服务平台,Network Unified Service Architecture (NUSA)。


其中,HPN网络架构采用双平面转发的2层clos无收敛结构(如下图所示),可支持最多超过1万张GPU的算力集群。双平面2层clos使得拓扑简单、规模增加的同时保持更低的单位成本,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得hash拥塞的概率尽量低,整体上实现集群算力性能的最优。HPN架构在设计之初就瞄准万卡高性能而设计,利用网络仿真平台NetMatrix进行流量模拟和架构仿真,打造了低时延高性能的智算网络架构。


2.png

图 | 阿里云双平面HPN网络架构


HPN架构确定了网络的理论最优性能,但由于网络本身是一个复杂的系统,所以如何让网络工作在最优状态同样是一个非常复杂的问题。为了解决这个问题,我们利用阿里云自研交换机(下图所示),并结合端侧的智能网卡,实现了端网融合的可预期数据中心网络,从而确保应用可以获得最佳性能。其中,我们利用带内网络遥测技术(Inband Network Telemetry, INT),并结合端侧实现的高精度拥塞控制算法(High Precision Congestion Control,HPCC),可以让端侧依据网络的实时状态做到更科学合理的流控决策。基于上述技术方案,可以显著降低交换机队列的抖动,从而在实现免PFC(Priority-based Flow Control)部署的同时,可以获得网络高带宽和低时延。基于HPCC与INT技术的结合,分布式机器学习应用可以用最短的时间在节点之间完成数据的传输,从而保证GPU持续处在高利用率水位,保证了集群算力的持续最大输出。另外,为了实现精确的多路径传输以及毫秒级的端到端故障规避和恢复,阿里自研交换机创新性的提出了hashlib技术。基于hashlib,端侧传输层协议可以感知网络设备的转发规则,还可以精确的指定报文传输的网络路径,从而实现真正的“无交叠/无拥塞”多路径传输。基于hashlib,上层应用软件可以结合自身业务特征,实现通信任务的高效编排,获得端到端的业务最优性能。


图片3.png

图 | 阿里云自研交换机


除此之外,高性能网络的高效稳定运行也是客户始终的核心诉求。为了实现这个目标,阿里云自研Network Unified Service Architecture (NUSA)高网统一服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。基于创新的端网融合技术体系,NUSA提供了自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和虚拟化服务。基于NUSA打造的普惠化高性能网络系统,让客户可以“放心用、省心用”阿里云自研高性能网络系统。


在过去几年,阿里云在高性能网络领域持续耕耘,诞生了HPN、HPCC、hashlib和NUSA等一系列核心技术,在保障上层关键业务高效稳定运行的同时,也使其享受到了可预期的高性能网络红利。未来,阿里云将在高性能网络领域进一步创新,并将重点在自研网络设备、新通信语义、自研协议等方面持续发力,和业界一起共同推动高性能网络的普惠化。欢迎对高性能网络领域感兴趣的专家加入我们,或和我们展开多种形式的合作。


相关文章
|
1月前
|
大数据 云计算
中国网络大会专题论坛 | 下一代超大规模高性能公共云网络
中国计算机学会ChinaNet上,阿里云洛神云网络将与知名学术届代表一起共话下一代超大规模高性能公共云网络的关键技术。
|
2月前
|
存储 安全 5G
|
25天前
|
消息中间件 编解码 网络协议
Netty从入门到精通:高性能网络编程的进阶之路
【11月更文挑战第17天】Netty是一个基于Java NIO(Non-blocking I/O)的高性能、异步事件驱动的网络应用框架。使用Netty,开发者可以快速、高效地开发可扩展的网络服务器和客户端程序。本文将带您从Netty的背景、业务场景、功能点、解决问题的关键、底层原理实现,到编写一个详细的Java示例,全面了解Netty,帮助您从入门到精通。
82 0
|
1月前
|
机器学习/深度学习 人工智能 物联网
5G与AI融合:智能网络的新纪元
【10月更文挑战第25天】
56 3
|
27天前
|
大数据 云计算
2024 CCF中国网络大会专题论坛丨下一代超大规模高性能公共云网络 精彩回顾
中国计算机学会ChinaNet上,阿里云洛神云网络将与知名学术届代表一起共话下一代超大规模高性能公共云网络的关键技术。
|
3月前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
269 5
|
3月前
|
5G 网络安全 SDN
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
83 3
|
6天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
7天前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
24 10