阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

简介: 在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。

【阅读原文】戳:阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。

 

阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人吴结生在第20届CCF全国高性能计算学术年会(CCF HPC China 2024)期间谈到,如今数据已成为企业不可或缺的资产,而随着人工智能技术的不断进步,云计算与AI的结合正迅速成为企业发展的新趋势。不久的将来,每家企业都将转型为“数据+AI”的新型公司。云计算持续遵循着Scaling Law,能够提供大规模、可扩展的计算能力和存储能力,以适应企业业务和AI模型的不断扩展需求。通过云计算,企业能够加速采用人工智能技术,推动智能化创新的实现。

 

 

 

 

多元化负载驱动高性能计算创新

 

 

 

当前高性能计算领域正面临着日益多元化的工作负载需求。从基础模型的训练、自动驾驶,到生命科学、工业制造和半导体芯片等前沿领域,高性能计算的应用场景不断拓展,负载特性也日趋复杂。

 

图丨阿里云智能集团副总裁,弹性计算产品线&存储产品线负责人 吴结生

 

 

“这种多元化的负载需求,对高性能计算提出了全新的挑战。”吴结生表示,“我们需要通过多样化的产品、系统架构和技术方案,来满足不同负载对计算能力、存储性能、网络带宽等方面的差异化需求。”

 

根据算力耦合度和数据密集度,吴结生将高性能计算负载大致分为极致耦合型、紧耦合型和松耦合型。

 

针对多样化的负载需求,阿里云构建了完整的高性能计算基础设施,通过相应的产品来满足不同类型的HPC负载的需求。“灵骏智算服务满足极致紧耦合的HPC负载需求。典型的代表就是大模型的训练;E-HPC高性能计算,支持紧耦合的HPC负载;E-HPC Instant计算服务,支持松耦合的HPC负载。”

 

 

 

 

 

弹性能力与阿里云CIPU引领“数据+AI”时代

 

 

 

在谈到Cloud HPC(云上高性能计算)与传统HPC的区别时,吴结生强调了弹性能力的重要性。

 

“Cloud HPC的最大优势在于其弹性能力。”他表示,“通过云上的资源池和弹性调度技术,我们可以根据客户的需求快速创建和释放计算资源,实现计算能力的按需分配。这种弹性能力不仅提高了资源利用率,还降低了客户的成本。”

 

 

此外,Cloud HPC还具备对异构计算的兼容性和快速部署的能力。吴结生指出,随着AI技术的不断发展,异构计算已经成为高性能计算的重要组成部分。阿里云通过提供对GPU、FPGA等异构计算资源的支持,以及一键部署、自动化管理等便捷功能,为客户提供了更加灵活和高效的高性能计算解决方案。

 

他进一步强调,Cloud HPC的优势不仅在于其技术能力,更在于其能够与客户的业务流程紧密结合,提供端到端的整体解决方案。通过弹性高性能计算平台E-HPC,整合计算、存储、网络和安全等方面的能力,阿里云帮助客户实现了业务流程的优化和效率的提升。

 

在采访过程中,吴结生还多次提到了阿里云自研的CIPU(云基础设施处理器)的价值。他进一步指出,通过整合CPU、GPU和加速卡的能力,CIPU架构为阿里云提供了强大的差异化竞争力。无论是在大数据处理、高性能计算还是AI训练等领域,CIPU架构都发挥了重要作用。“我们从2017年开始,一直致力于CIPU的创新和演进。最近我们发布了CIPU 2.0,在安全、稳定性、性能等方面得到全面的升级。”吴结生进一步分享道CIPU 2.0支持更高性能的弹性RDMA,进一步加强了E-HPC使用弹性RDMA支持HPC负载的能力。

 

 

 

 

智算为基,阿里云助力多行业驶向数据+AI的“高速路”

 

 

 

写一篇旅行攻略需要筛选目的地、预订交通住宿、规划行程等,耗时又费力。用户使用AI大模型时,只需要简单的“帮我写一篇去**的旅行攻略”提示词,几秒内就可以生成一篇详细的旅行规划。写宣传文案、写论文、做会议总结,做各类图像和视频内容等,在AI浪潮下,各类大模型应用产品将很快成为许多人工作生活的“标配”。

 

但是在大规模的模型训练过程中,经常会遇到各种原因而被迫中断。事实上,大模型的预训练过程依赖于集群化架构,需要构建包含成千上万张加速计算GPU卡的大型集群。这个集群本身就像一个巨大的整体,任何单个节点的故障都可能导致整个训练过程的暂停。吴结生比喻说,训练大模型类似于一群人两两绑腿一起行进,这种并行协作的方式一旦有成员反应迟缓或跌倒,整个团队的前进就可能受阻。

 

“让每张GPU卡,每台机器都以相同的‘步伐’前进,才能提升整体的模型训练效率,这也是阿里云与头部大模型客户共同在推进的一个重要方向。”吴结生说道

 

月之暗面作为一家创业型的大模型与AI应用公司,凭借其独特的Kimi智能助手APP迅速崭露头角。这背后离不开阿里云强大的计算平台支持。月之暗面的大模型训练与AI应用扩展,对于计算性能、稳定性以及效益都有着极高的要求。阿里云为月之暗面提供了一个大规模、高性能且稳定的智算平台,确保了大模型训练的顺利进行。同时,阿里云还通过优化资源配置与调度,为月之暗面提供了高性价比的解决方案,助力其在激烈的市场竞争中脱颖而出。

 

在汽车制造业,“卷”价格、“卷”技术已经不是新鲜事,车企们不断推陈出新,不仅要在续航里程、充电速度等硬指标上领先,还要在驾驶体验、个性化服务等方面赢得用户的心,这些都离不开汽车厂商在研发效率上的提升。

 

以汽车厂商为例,阿里云通过其弹性高性能计算(E-HPC)服务,为汽车厂商提供了一个全流程的仿真计算解决方案。在这个平台上,工程师们可以高效地进行汽车设计、模拟测试与优化改进等工作。“得益于阿里云的高性能计算、网络与存储技术,仿真计算的效率得到了显著提升,达到了25%的增长。这不仅帮助汽车厂商实现了研发目标,还为其节省了大量的研发费用。”吴结生说道。

 

在生命科学领域,药物计算过程波峰算力需求大、平均算力与波峰之间相差悬殊等问题一直是制约新药研发效率的关键因素。阿里云通过E-HPC Instant产品智能调度全局资源,望石智慧的科学家们可以灵活申请所需的算力资源,进行大规模的药物计算与模拟实验。吴结生补充称,“得益于阿里云的海量的计算资源,药物计算的效率得到了显著提升,同时成本也降低到了原来的三分之一。不仅加速了新药研发的进程,也为望石智慧在激烈的市场竞争中赢得了宝贵的先机。”

 

进入AIGC新时代,人工智能应用需要不断夯实算力底座。作为引领未来发展的关键力量,算力也是构成新质生产力的重要部分。面对新的科技革命与产业变革,新质生产力是一种更高效、更先进的生产发展模式。它关注的不仅仅是“新”,更重要的是实现“生产力”的跃升与结构的优化。高性能计算为人工智能、云计算、大数据、物联网等提供了强大的计算能力。我们期待看到,阿里云作为云计算行业的引领者,与基础模型、智能驾驶、生命科学、能源、制造等行业玩家共同携手,持续带来更多产业应用的发展。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4天前
|
存储 人工智能 缓存
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。
|
21天前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
175 9
|
18天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
25天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。
|
25天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
27天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
3月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
数据平台演进问题之数据的资产怎么被AI驱动的数据库理解
数据平台演进问题之数据的资产怎么被AI驱动的数据库理解
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
数据之势丨云原生数据库,走向Serverless与AI驱动的一站式数据平台
在大模型席卷之下,历史的齿轮仍在转动,很多人开始思考,大模型能为数据库带来哪些改变。阿里云数据库产品事业部负责人李飞飞表示,数据库和智能化的结合是未来非常重要的发展方向,数据库的使用门槛将大幅降低。

热门文章

最新文章