阿里云何万青:南坡VS北坡,阿里云高性能计算行业实践

简介: 北坡模式:借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务。

随着数字化转型的深入,行业应用对算力提出更高要求。为满足不同行业灵活的业务形态与计算需求,以云计算技术为服务模式创新的技术手段,以高性能计算服务为核心的高性能计算云(HPC Cloud)受到业界的广泛关注


为了进一步凝聚产业共识,推进高性能计算云产业发展,2021年12月21日,计算网融合产业及标准推进委员会联合超级计算创新联盟,召开首届高性能计算云(HPC Cloud)产业发展论坛,邀请了学术界与产业界专家,以 “云化超算,智启未来”为主题,从技术研究、应用部署、实践发展等多个方面进行精彩演讲。

1-南坡VS北坡-阿里云高性能计算行业实践_00.jpg


在本次论坛上,来自阿里云的高性能计算负责人何万青发表了《南坡VS北坡,阿里云高性能计算HPC-as-a-Service行业实践》的主题演讲。


 

01 阿里云高性能计算的发展


超算通过互联网的方式去部署和交付已经成为趋势。何万青表示阿里云的高性能计算已经发展了四到五年,目前部署在很多工业和行业计算的相关垂直业务,比如汽车仿真、影视后期渲染、AI生物制药、气象业务等领域。


基于过去十多年在线下HPC的技术观察,谈到传统超算系统转型高性能计算云的趋势,何万青将线下超算转型云服务和云服务提供高性能计算产品和服务两种模式,比喻为从南坡和北坡不同线路攀登HPC-as-a-Service顶峰。在北坡,云公司借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务:单机SLA和大规模稳定性、快捷、弹性、多种云产品和服务的快速组合及SaaS服务,超越以提供“核时”和“算力”为核心的模式,强调整体科研业务上云。

2-痛点需求.jpg


2020年是高性能计算在稳定性、弹性以及计费敏感性方向发展最快的一年,很多重大任务在阿里云已经可以大规模的部署,阿里云在去IOE的过程中,可以使超70%硬件故障无感消除,在公共云大计算产品端,云超算SCC第七代实例规格全新上线。

3-南坡VS北坡-阿里云高性能计算行业实践_03.jpg


在神龙计算平台上,它的优势包括虚拟化网络高效卸载,物理网络、存储和计算完全解耦,避免资源争抢。神龙eRDMA功能2021年也正式上线,实现CPU实例和GPU实例并池和混合部署,极大扩展CPU和GPU实例集群范围。从POD扩展到可用区、数据中心,平台支持更大规模的弹性伸缩,同时支持VPC网络、eRDMA网络、存储网络三网合一。在数值天气预报中,eRDMA会极大提升应用规模和并行效率。

image.gif

4-.png

 

02 阿里云高性能计算Cloud Stack


何万青表示,基于以上的底层架构,阿里云高性能计算统称为“神龙云超算”,在其上部署面向公共云和混合云的E-HPC云软件栈,它是基于神龙服务器+RDMA网络+并行文件系统开发的PssS层服务。其中,调度器和弹性伸缩、热迁移等功可以从底层对客户透明实现。在ISV层,服务是通过工作流的方式提供,数据搬移不仅是物理方式,而是通过高速网络,一次性的上载来完成任务交付。在跨数据中心的计算集群上,完成三网合一,现有调度器完全实现对跨可用区计算节点的调度,将不同的任务分配给不同的实例。在不同的队列调度上方面,全球只有阿里云能够在运行过程中实现队列绑定不同的实例。

5-公有云EHPC.jpg


 

03阿里云高性能计算应用方案


7-南坡VS北坡-阿里云高性能计算行业实践_18.jpg


何万青介绍了将抢占式实例与断点续算结合,用户只需要花费比传统方式很少的成本,便可以按需得到所需资源。在混合云技术方面,通过混合云异步文件存储的方式,可以实现在线上、线下同时进行数据拉取与计算,在影视渲染场景中,已经得到广泛使用。

image.gif8-南坡VS北坡-阿里云高性能计算行业实践_20.jpg

9-业务场景.jpg


E-HPC商业License方案中,可通过阿里云高速通道打通云上云下网络。其中,E-HPC自动部署云上计算资源,并为其配置好License服务或License代理节点,云下License服务器通过VPN连接License代理节点,E-HPC服务负责License Manager部署、License发放和使用监控。

10-南坡VS北坡-阿里云高性能计算行业实践_21.jpg


点击这里,查看更多弹性高性能计算E-HPC产品信息。


相关文章
|
27天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
22天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
29天前
|
存储 人工智能 弹性计算
对话阿里云吴结生:AI时代,云上高性能计算的创新发展
在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。
|
27天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
4月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
266 1
|
6月前
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。
|
6月前
|
存储 弹性计算 网络协议
阿里云高性能计算HPC优化实例商业化发布详解
基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。
|
7月前
|
存储 机器学习/深度学习 网络协议
阿里云高性能计算实例规格族有哪些?各自特点、适用场景介绍
阿里云高性能计算是的阿里云服务器ECS的架构之一,高性能计算实例规格族主要应用于各种需要超高性能、网络和存储能力的应用场景,例如人工智能、机器学习、科学计算、地质勘探、气象预报等场景。高性能计算实例规格族有高性能计算优化型实例规格族hpc8ae、高性能计算优化型实例规格族hpc7ip、计算型超级计算集群实例规格族sccc7等。下面是阿里云高性能计算实例规格族特点、适用场景介绍。
阿里云高性能计算实例规格族有哪些?各自特点、适用场景介绍
|
7月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
存储 弹性计算 并行计算
在高性能计算(HPC)场景下,阿里云存储的文件存储产品的实践
在高性能计算(HPC)场景下,阿里云存储的文件存储产品具有以下的应用需求和实践
450 4

热门文章

最新文章