没错,阿里巴巴背后的AI“发动机”就是它

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 磐久EFlops智算集群——阿里巴巴业务背后的“AI算力发动机”

【阅读原文】戳:没错,阿里巴巴背后的AI“发动机”就是它


首图-图标.png


随着AI应用百花齐放,GPU算力需求井喷式增长,今天AI与云“搭配”已成为行业共识,AI算力与云原生基础设施的发展也紧密相关。在日前举行的“第十六届中国IDC产业年度大典“上,阿里云基础设施正式发布磐久EFlops智算集群——阿里巴巴业务背后的AI“算力发动机”也正式走向台前。



“计算”And“智算”,算力也有“多模态”


传统的大数据计算(如Hadoop)以单向的、流式的处理流程为主,每次计算任务会有多个相互独立的子任务,单位时间内完成多少任务(吞吐量、并发量),是整个计算系统的重点指标。而AI计算,每个计算任务的子任务需要周期性进行同步,下一次计算迭代的启动会依赖上一次计算迭代的完成,单个任务的完成时间是重要指标。AI业务对计算系统的算力、通信能力等有极高的性能要求。

曹政-1.jpg

阿里云基础设施大计算集群部总监  曹政

在“阿里云磐久液冷基础设施”专场,他表示:

“高算力集群是推动AI应用发展的发动机,集群体系架构一直在创新,阿里巴巴从2018年开始研发AI集群,为AI业务提供超大规模算力。通过实践和总结,我们认为算力的供给、集群的设计,应从应用出发。”




阿里巴巴AI算力规模化部署应用实践


2018年,阿里巴巴开始研发AI集群,2019年建成0.5 EFlops(TF32)的单GPU集群,2021年已经升级到“万卡”规模,峰值算力达到了1.5 EFlops(TF32)。AI基础设施的持续投资保障了算力供给,更为AI技术发展提供了充足的“动力”。结合内部三年多超大规模AI集群应用实践,阿里巴巴给出了规模化应用AI集群的最优方案。


应用需求是集群设计的指挥棒

阿里巴巴业务场景丰富多样,涵盖视觉、图像、语音、推荐、搜索等多类型AI应用,向外延伸还有医疗健康、数字化社会等综合型应用。以金融为例,部分金融场景的AI业务需要快速实现模型收敛来完成训练,需要为异构算力部件拓展网络资源。而自动驾驶领域则是HPC和AI的叠加,可同时满足大量的模拟仿真和AI需求。


不同的算力集成方案,可以在精度、加速器应用、通讯需求等方面有很大的差异,因此,我们对AI的集群架构提出了针对性的软硬件设计方案


软硬协同“合而为一”  释放峰值算力

在AI集群层面,通讯的碰撞是计算延迟的主要来源,除了架设集群通信的“高速公路”外,还需要进行合理的通讯调度,避免“堵车”。阿里巴巴通过自研通信库结合自研硬件对“万卡”规模的AI集群提供无拥塞高性能的集群通讯能力


在一些AI计算任务里,我们发现GPU耗费了大量时间在等待数据加载,真正的计算时间只有很少一部分,不仅影响计算任务的处理时长,也造成严重的计算资源损耗。为解决这个问题,阿里巴巴对AI计算特征进行挖掘预测数据的最优路径提前进行“数据预热”。在超大规模集群中,也可以做到资源倍增,计算加速一倍的效果。


AI集群中,GPU是非常重要的异构算力硬件,阿里巴巴通过自研的GPU资源虚拟化技术,对GPU资源进行细粒度切分、调度,以充分释放GPU算力,并且同时具备升级成本极低的特点。经过实际应用验证,GPU虚拟化使资源利用率提升3倍,节省60%+的GPU资源。不仅如此,虚拟化能力在兼容国产供应链方面也具备重要意义。

配图1.png


充足的算力,配合机器学习平台PAI,为AI构建了十分友好的发展环境,使阿里巴巴AI应用百花齐放的同时,也为超级模型等技术探索提供了有力的支撑。




一路向“前” “算力”的发展方向


无人驾驶、自然语言、图像识别……算力不仅为AI应用提供发展“动力”, 在科研领域也将发挥更加巨大的价值。


科学家正在使用AI技术,更高效地对蛋白质的三维折叠结构进行预测,为新一代的疾病防治和药物开发进行探索;AI也正在地质监测、即时天气预测、甚至是暗物质探索等多学科的科研课题中发挥越来越重要的作用。


相信在不远的未来将进入“第五计算范式”时代,通过多种异构处理器应用和计算系统架构设计,提供差异化算力,为不同的应用场景提供针对性的算力方案。


计算类型

计算特点

高性能计算(HPC)

精确计算科学

大数据(BigData)+AI

数据科学+模糊计算科学

大数据(BigData)+AI+高性能计算(HPC)

数据科学+模糊计算科学+精确计算科学

• HPC(高性能计算)“第三计算范式”;大数据“第四计算范式”;HPC+AI+大数据“第五计算范式”。


中国工程院院士、清华大学郑纬民教授最近在《人民邮电报》撰文指出:算力和数据是元宇宙和数字经济发展的基础算力是元宇宙的基础要素也是衡量数字经济发展的晴雨表未来云计算将推动算力成为像水电一样的基础资源并以服务的形式直接赋能给最终用户



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
7月前
|
机器学习/深度学习 人工智能 达摩院
阿里巴巴达摩院“绿色能源AI”解决方案
阿里巴巴达摩院决策智能实验室致力于研究决策智能系统需要的国际前沿技术,提升业务运营效率和收益、降低成本。在电力能源行业构建出“绿色能源AI”方案,与国家电网、南方电网等企业合作落地多个项目。代表作软件是行业领先的MindOpt优化求解器、智能电力预测eForecaster、MindOpt Studio决策开发云平台。研究方向包含机器学习、数学建模、优化求解、 时序预测、因果分析、决策方案可解释性、决策推理大模型等。本篇是达摩院“绿色能源AI"方案的介绍幻灯片图,供大家了解方案的能力。
1297 1
阿里巴巴达摩院“绿色能源AI”解决方案
|
新零售 人工智能 智能设计
2023云栖现场 | 阿里巴巴企业智能带你探索AI在企业办公数字化的实践
企业数字化是企业提升竞争力的必然选择,AI 技术的发展,更是为企业数字化转型提供了新的思路。 在2023年的云栖大会上,阿里巴巴企业智能展示了AI驱动下,在“人、财、法、事、物、场”等领域的数字化办公最新实践。将AI 技术与企业数字化各领域深度结合,碰撞出新的火花,让人眼前一亮。
|
机器学习/深度学习 人工智能 算法
AMiner公布AI 2000榜单:阿里巴巴获评全球十大计算机网络研究机构
AMiner公布AI 2000榜单:阿里巴巴获评全球十大计算机网络研究机构
145 0
|
机器学习/深度学习 存储 人工智能
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
332 0
|
机器学习/深度学习 人工智能 搜索推荐
阿里巴巴宣布加入 Linux Foundation AI&Data 基金会,捐赠首个开源项目 DeepRec
持续加大对AI和大数据技术的投入以促进相关开源建设。
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版地址
阿里云服务器购买价格,阿里云所有产品价格表分享
163 0
《阿里巴巴大数据及AI实战》电子版地址
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版地址下载
阿里云服务器购买价格,阿里云所有产品价格表分享
135 0
《阿里巴巴大数据及AI实战》电子版地址下载
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版
阿里云服务器购买价格,阿里云所有产品价格表分享
110 0
《阿里巴巴大数据及AI实战》电子版
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版下载
阿里云服务器购买价格,阿里云所有产品价格表分享
146 0
《阿里巴巴大数据及AI实战》电子版下载