ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识

简介: 在首届CCF中国存储大会上,阿里云服务器研发团队带来最新的UALink联盟进展,以及ALink System产业生态在国内的落地现状。

【阅读原文】戳:ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识

11月29日-12月1日, CCF中国存储大会在广州长隆国际会展中心召开,阿里云服务器研团队受邀参加,在超算互联网和智能化时代存储应用创新两个专题论坛发表演讲,同步UALink联盟发布后ALS(ALink System)产业生态发展现状,以及面向AI场景下存储软硬件结合创新和实践经验。

 

背景信息:中国计算机学会中国存储大会(CCF China Storage Conference,简称CCF ChinaStorage)是国内一年一度信息计算与存储领域学术界和产业界联合举办的大型年度盛会。CCF ChinaStorage 2024以“存力、算力、智力”为主题,围绕存储与计算技术前沿发展方向,针对存力算力网、新型存储器件及体系结构、存储互联与分布式计算、数据库与文件系统、存算一体、存储网络和信息存储标准及评测等20多个技术领域展开研讨,并开展产品与新技术原型展示,探索高性能计算、人工智能和云计算等应用场景下存储与计算系统的新型解决方案,为国内存储技术相关专业研究与应用的专家、学者、技术人员、学生以及产业界提供了一场存储学术产业盛会。

 

UALink联盟10月29日正式成立,除了9家创始成员外,短短1个月内新增贡献会员和应用会员已近40家。特别是全球主流CSP厂商齐聚,直接说明超大规模AI算力基础设施建设中,Scale Up技术路线之争基本尘埃落定,AI智算超节点内Scale Up互连更多是关注高性能和低延时。正是基于对未来Scale Up技术路线发展的判断,阿里云联合信通院和AMD等单位在今年9月发布了ALink Sytem产业生态,并在2024云栖大会现场展示了AI Infra 2.0服务器系统,其中底层互连协议部分兼容UALink协议。

 

“当前业界已经形成共识,在开放协议领域,以UALink为代表的Scale Up协议和UEC为代表的Scale Out协议,共同支持AI集群互连基础协议向前演进。Scale Up互连用于GPU之间GPU 互连,Scale Out互连用于服务器之间是基于网卡+交换机的集群互连,两者在互连范围、流量特点和编程模式上有显著区别。而这种应用场景需求上的区别也体现在协议设计和底层硬件实现上。”阿里云超高速互连负责人孔阳在现场演讲中提到。

 

 

图丨孔阳在超算互联网分论坛发表演讲

 

 

ALS(ALink System,加速器互连系统)作为阿里云主导的开放生态,目标是解决Scale Up互连系统的行业发展规范问题。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分。ALS-D数据面互连采用UALink协议,除了原生支持高性能内存语义访问、显存共享,支持Switch组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。ALS-M可为不同芯片提供标准化接入方案,符合规范的设备均可灵活接入应用方系统,无论是对开放生态还是厂商专有互连协议,ALS使用统一的软件接口。同时,ALS-M为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。整体来看,ALS聚焦GPU算力互连需求,旨在解决AI智算超节点快速发展中面临的超高速、超大带宽的Scale Up技术难题,促进国内AI智算互连领域的技术创新和标准化,驱动构建端到端的、开放的、标准化的开放生态。

 

AI应用的兴起不仅对算力提出更高要求,也对存储基础设施提出了更高的挑战。在智能化时代存储应用创新专题论坛,来自于阿里云服务器研发团队的资深技术专家陶凯,分享AI场景下阿里云存储从部件到服务器,再到硬件解决方案的多层次创新实践。阿里云自研服务器和存储部件通过软硬结合创新,为上层AI训推任务提供具有核心竞争力的存储硬件底座,包括面向大模型存储分层,数据集智能流动的平台解决方案,提升训推场景网络带宽和硬件利用率的存储服务器,以及大容量/低成本的QLC SSD和高带宽/低延迟CXL 持久化内存等技术创新。

 

图丨陶凯在智能化时代存储应用创新论坛发表演讲

 

 

在自研部件Aliflash和AliSCM的发展过程中,阿里云在确保关键技术领先的同时还不断优化成本和运维效率,并结合业务部门需求进行深度软硬件整合,针对性地解决业务的痛点问题并满足定制化需求,进一步提升相关业务的竞争力。未来,阿里云也将持续在Aliflash和AliSCM等自研存储部件上探索CXL、PIM等技术创新,深化其在AI领域的技术探索与应用实践。

 

在服务器层面,阿里云以磐久存储服务器平台为基础,持续推动软硬结合实践和创新,为AI时代数据存储提供核心竞争力。高性能存储服务器平台,通过自研网卡实现高性能、低延迟400G网络,支持大规模训练集群高速数据传输;大容量存储服务器平台,规模落地大容量SMR HDD,提供极致成本的AI数据集存储服务;AI存储服务器平台,与业务紧密合作,基于自研硬件平台完成数据集智能流动和加速,以及CheckPoint流程优化提效等关键功能开发上线。

 

阿里云服务器研发始终坚持以技术创新为核心驱动力,引领行业发展趋势,结合业务需求深入软硬融合创新,为阿里云基础设施的持续发展创造独特价值。


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
7月前
|
机器学习/深度学习 人工智能 安全
中国信通院联合金橙果科技等十七家单位发起人工智能大模型安全基准测试
2024年2月20日下午,AIIA“SafetyAI Bench”(人工智能大模型安全基准测试)线上研讨会成功举办。来自中国信息通信研究院(以下简称“中国信通院”)、厦门大学、北京大学、北京交通大学、360、百度、蚂蚁集团、VIVO、西门​子、小鹏汽车、马上消费、浪潮科技、海信视像、交通银行、商汤科技、邮储银行、普华永道、科大讯飞、金橙果科技、万商天勤律所、中兴通讯、博特智能、开源网安、云天励飞等单位40余位科研机构专家及企业代表参加了本次会议。
|
3月前
|
人工智能 数据中心 云计算
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
9月3日,在2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等国内外十余家业界伙伴发起AI芯片互连开放生态ALS(ALink System)。
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
|
存储 弹性计算 人工智能
阿里云斩获2022全球分布式云大会两项大奖
阿里云弹性计算团队凭借在算力领域的创新突破与全面的分布式云产品矩阵布局,荣获“2022 年度中国算力先锋 TOP3”、“2022 年度分布式算力市场领导力企业”两项大奖。
阿里云斩获2022全球分布式云大会两项大奖
|
存储 人工智能 搜索推荐
BioBit Program启动!之江实验室携手全球顶级研究团队开展生物计算国际科学合作
BioBit Program启动!之江实验室携手全球顶级研究团队开展生物计算国际科学合作
132 0
|
人工智能 自然语言处理 算法
字节AI Lab推出业界首个系统性大分子体系的量子计算模拟方法,成果入选《Chemical Science》
字节AI Lab推出业界首个系统性大分子体系的量子计算模拟方法,成果入选《Chemical Science》
228 0
|
机器学习/深度学习 大数据 芯片
阿里云加速器联合本应科技重磅发布 《2020年芯片产业图谱及区域发展白皮书》
近日,由阿里云加速器、北京本应科技有限公司联合编制的《2020年芯片产业图谱及区域发展白皮书》(以下简称《白皮书》)在深发布。 《白皮书》深入研究芯片行业国内外现状、国家及地方产业政策、产业链图谱及竞争格局、各区域产业发展,同时结合发达国家产业发展路径,为芯片产业提出五条发展建议。在此基础上,通过梳理行业新技术,洞察产业发展趋势。 最后,回顾2020全年行业内十大热点新闻事件。 同时,芯片细分领域的TOP50/20企业榜单及活跃投资机构TOP20榜单正式发布。
阿里云加速器联合本应科技重磅发布 《2020年芯片产业图谱及区域发展白皮书》