引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。
本文根据倪炜的主题分享整理而成。
工业仿真需求变更带来IT挑战
在本次分享中,我们把视角聚焦到工业仿真领域。
工业仿真领域的市场需求日新月异,同时也带来了日渐扩大的IT基础设施挑战。同时,由于仿真规模急速增长,IT基础设施也随之需要不断扩容,由此也暴露了IT基础设施前向兼容性及建设的高性价比问题。
另一方面,工业领域的竞争不断加剧也带来了需求不确定性的增加,需要在同等预算/可执行预算空间内满足更大的不确定性。
最后,随着竞争越来越高,工业产品面市周期缩短(Time To Market),因此需要仿真结果可以直接作用于生产,减少物理样品生产带来的耗时,这也就要求迭代次数、精度不断增加,总迭代时间又要大幅缩短,以便降低license费用支出。
以上3个需求都对IT基础设施形成了巨大的挑战。
阿里云E-HPC产品架构:现代化的云超算
这里,先介绍一下阿里云E-HPC平台,这个平台整体分为三层。
首先,是高性能基础设施层。高性能基础设施层提供了高性能计算、存储和网络。
- 在计算方面,阿里云ECS计算实例可以提供小规格计算能力,对于小算力而言,能够带来更好性价比。同时,阿里云也提供弹性裸金属服务,可以将整机性能和规格直接给到客户侧,在一些大算力作业、并发作业上能获得更好的性能。针对复杂的3D前后处理场景以及一些GPU加速的工业仿真场景,阿里云还提供了各种类型的GPU实例满足客户要求。
- 在网络方面,阿里云最新的实例已经可以支持100G的VPC,也有兼容各RDMA协议的eRDMA能力,eRDMA能够获得更好的性能也带来了更佳的性价比。对于一些时延极其敏感的业务,阿里云提供了基于RoCE网络的实例和能力。
- 在存储方面,提供了OSS作为持久化存储能力以及NAS/CPFS作为分布式存储能力,多种规格的产品能够在各种应用上获得更好的适配,从而带来最优性价比。如果客户考虑将线下IDC数据上云,我们还提供了闪电立方产品能力,能够帮助客户快速地将IDC数据上传到云端。
E-HPC产品兼容线下计算、存储和网络,能够实现云上云下统一的混合云调度。
其次,在高性能基础设施层之上是HPCaaS层产品。HPCaaS层产品由集群资源管理组件、统一作业调度组件和API三个组件组成。
- 集群资源管理组件。集群资源管理包括三个部分,首先是集群创建和管理,其能够实现一键创建集群和管理生命周期。另一方面,基于阿里云弹性能力可以提供基于调度器的负载自动伸缩。最后,阿里云E-HPC也能够提供基于集群节点和作业维度的可观测能力,可以分析集群的利用率以及每个作业的使用效率,从而帮助IT运维人员更好的使用IT基础设施能力。
- 统一作业调度组件。在这一部分一般分为两块,首先可以使用传统HPC调度器,例如SLURM,PBS,SGE等等,同时也支持商业版的调度器,可以为客户提供更多可选择性。另一方面阿里云提供了Serverless Batch能力,可以完全忽略laas层和E-HPC管理层,只需要将作业脚本传递到云上接口就可以直接运行,节省了IT基础设施的运维和管控层维护需求。
- API层。API可以调用集群、节点、队列、模板和作业,将API和整个生产业务、研发业务结合,即可实现完全统一的自动化流程。
最后,HPCaaS层之上是行业应用。
基于阿里云多年在工业仿真领域的沉淀,已经和各大行业主流软件进行了兼容性适配,保障软件运行效率。
HPCaaS,一键创建、使用和扩容
HPCaaS层支持一键创建使用的扩容集群,可以将现有的超算中心/线下机房的建设模型一比一复制到云上,客户可以通过云上的GPU实例/无影产品来实现图形节点的能力,也可以直接在E-HPC控制台上创建登录节点和管理节点。
同时,基于阿里云弹性计算众多ECS实例规格族,可以创建不同的计算节点池,支撑各种类型的仿真业务。阿里云提供了丰富的文件存储能力,因此客户可以基于业务的需求使用NAS或者CPFS。所有的计算节点和图形节点之间可以通过阿里云eRDMA网络实现高速连接。整个部署可以从原来线下建设的数月时间缩短到仅仅半个小时,在业务高峰期和弹性需求来临时,快速扩容E-HPC集群从而满足业务需求。
基于混合云架构的弹性供应方案
阿里云E-HPC平台还支持混合云架构,客户可以通过专线或者VPN直接实现云上、云下两个集群互联。下图左侧是IDC网络架构,无论它是基于IB网络,还是RoCE网络都可以和云上现有的高性能E-HPC集群进行互通。
通过阿里云E-HPC调度器的兼容性能力,可以将云上的计算节点直接添加到线下的HPC队列中,从而直接将作业投递到云上的弹性计算节点。这样能保证CAE工程师可以在统一的环境内进行工作,无需理解资源及重新适应新环境。
基于应用负载的弹性伸缩
阿里云E-HPC可以支持基于应用负载的弹性伸缩,下图展示的是弹性伸缩的过程。
可以看到,在T0时间点没有任何作业提交,因此整个云上没有任何计算节点,客户无需为计算节点支付任何费用。等到T1时间点,工程师提交作业,这个作业声明需要4个节点运行,因此E-HPC平台自动在计算集群内扩容了4个节点,开始承载作业。
等到T2时间点,另一个作业需要额外两个节点满足,因此E-HPC平台在T2时间点进行计算节点扩容,最终达到整个计算集群六台的能力。等到T3时间点,作业一、二已经完成并且已经达到了预设的冷却时间,此时,E-HPC将所有的计算节点都进行了自动释放,T3时间点,计算节点数量已经又归零。整个过程只在T1和T2时间点进行计费,最大程度地去运用弹性能力,同时支付最少的账单来满足业务需求,整个扩容过程都是完全自动化,因此IT工程师无需再守在屏幕面前为作业需求进行扩容和缩容。
性价比进一步提升
本次最新发布的高性能计算实例hpc8ae,它在原有的基础之上进一步提升了在工业仿真领域的性价比。经过分析发现,在工业仿真领域中,计算、存储和网络都有非常高的要求,因此hpc8ae在计算上定向增强了CPU主频和运算能力;在网络上提供了免费的eRDMA能力实现低成本的RDMA网络;在存储层面,通过全面支持NvME云盘实现更好的IOPS。通过以上方面的定向增强,发现对比普通的c8ae实例,在STAR-CCM+或者fluent等流体应用上,hpc8ae带来45%以上的性价比提升。
E2E性能全面领先
hpc8ae全面实现了性能领先,在Dyna、Abqus、Fluent等多个场景上,和其他算力进行对比,至少能够提供20%以上的性能提升,因此hpc8ae将为仿真业务带来更高性能,同时能够带来更好的成本效应。
基于业务的一站式前后可视化处理
E-HPC平台可以支持一站式前后可视化处理。下方演示为整个PORTAL页面。大家可以看到在PORTAL页面上已经预设了一些软件和应用模板,也可以根据自己的需求进行一些模板和软件应用的上传。
【 PORTAL demo演示】
这里做fluent的应用测试,将测试名称定义为fluent_VNC_demo,选择作业队列,选择作业所需要的进程数以及节点数量,选择fluent所需要的计算文件,提交作业。随后,可以看到整个的提交作业的内容以及用户信息,点击作业可以进入到VNC。经过一段时间的等待,作业完成,这是一个二维的fluent的测试结果。
通过PORTAL可以非常简单地构建一个可视化的处理页面,在简单的二维场景上实现可视化一站式结果的呈现和获取。如果要进行的仿真场景非常复杂,需要大量3D运算,建议采购阿里云GPU实例和阿里云无影产品来实现更高性能的可视化处理能力。
工业仿真案例解析
第一个案例是上汽乘用车。
上汽集团整体采用了阿里云E-HPC混合云架构。将阿里云的E-HPC平台和第三方管控平台进行兼容和适配。在底层,通过一条专线,实现了云和IDC互联,从而将云上的E-HPC实例加载到线下调度器队列当中,实现统一调度和运行。
在上汽的应用过程中,将之前使用的scch5s实例在线升级到hpc8ae实例,同时将原有的NAS产品升级到了cpfs。通过以上产品能力的升级,仿真效率提升了30%。通过云计算不断迭代的性能,可以为客户在CAE仿真场景中提供更高性价比,同时也能满足后项的持续扩容和各类兼容性能力。
接下来可以看到某手机厂商业务场景中使用阿里云弹性计算来实现仿真上云的案例。
我们为该厂商提供了基于eRDMA网络的hpc8ae实例,对比于客户线下的资源,在同等核数、abaqus应用场景上,hpc8ae实现了25%的性价比提升。近几年手机厂商竞争激烈,客户有大量的CAE运算需求,云上即开即用的业务特性,满足了客户突发算力的需求,保障了产品TTM进度。
阿里云工业仿真方案优势解析
首先,阿里云提供了hpc8ae实例,它是拥有极高性能的计算实例,在计算、存储和网络上针对工业仿真领域进行了定向增强。其次,阿里云提供了大量的弹性资源,在CAE仿真的高峰期,客户可以通过弹性算力满足业务需求。第三,阿里云E-HPC产品具备极强的兼容性能力,可以适配线下各类调度器和各类的第三方门户,为CAE仿真工程师提供更易使用的工作环境;最后,通过云上按需计费能力,可以降低客户侧IT投入和成本。