简介: 近日,全球领先的云计算厂商阿里云宣布正式开启最新HPC优化实例hpc8ae 的商业化发布,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代 AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE 场景下的性价比最少提升 50%。
近日,全球领先的云计算厂商阿里云宣布正式开启最新HPC优化实例hpc8ae 的商业化发布,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代 AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE 场景下的性价比最少提升 50%。
从分析地震资料勘探石油储藏,到使用计算流体力学设计汽车外形降低风阻,再到通过分子动力学模拟来发现新的药物靶点、攻克疾病。过去很多年,高性能计算无所不在,在各个领域,都在帮助我们解决各种各样、大型的、复杂的计算问题,促进社会的技术进步和创新发展。传统高性能计算和人工智能、VR、5G 等新兴领域的爆发式发展,对算力的需求越来越高。
传统的线下HPC存在建设周期长、计算资源不足和性能落后等诸多问题,难以满足企业的研发创新需求。基于云计算的 Cloud HPC,更加敏捷,能够使用最新的、多样性化的硬件,灵活的按照业务动态的增加或减少资源,更具成本效益。
阿里云高性能计算产品负责人黄泽辉表示:“阿里云一直以来,坚定地投入 Cloud HPC 方向,不断的革新计算技术,为 HPC 应用负载专门设计和优化云的基础设施,并通过端到端的 HPCaaS 云产品帮助任意规模的用户,以最简单的方式,来使用最强大的高性能计算。本次 hpc8ae 实例的发布,代表着阿里云在普惠高性能的 Cloud HPC 路上更进一步,为行业客户不断的降本增效。”
算力强劲,CAE 场景算力的最佳选择
HPC优化实例hpc8ae针对高性能计算应用进行了深度优化。在关键参数上,hpc8ae实例最高主频 3.75Ghz、内存带宽500GB/s ,提供了更加稳定的物理核心,不支持启用超线程。通过阿里云自研的CIPU 架构将算力损耗降为“0”,存储的 I/O 性能、实例的网络能力都全面提升, HPC 、通用计算、大数据、AI 等场景都能从中获得 20%以上的性能提升。
图:hpc8ae实例的 benchmark 性能测试
在 WRF、STAR-CCM+、Fluent 等常见工业仿真软件的性能benchmark 测试中,相较于第八代通用计算实例,专门优化的 hpc8ae实例在单节点作业中性能普遍提升 30%以上;在超过 512 核的多节点作业中,STAR-CCM+的计算扩展效率也接近线性,具有很好的并行加速效果。
基于eRDMA网络,打造云上低延时、低抖动网络集群
众所周知,HPC 类应用对于网络的性能需求(如延迟、吞吐)很高,TCP/IP的网络通信性能成为瓶颈,而传统 HPC 集群更多采用 RDMA 网络成本很高,弹性和扩展能力不足。阿里云的eRDMA、是阿里云自研云上弹性RDMA网络,底层链路复用VPC网络,支持 0 拷贝、bypass 操作系统,采用自研的拥塞控制算法,并通过 CIPU 卸载网络通信开销,可实现最低 8μs 的低时延、没有长尾抖动的节点网络通信效果。对于用户的HPC软件应用,eRDMA 通过支持libfabric 实现兼容,用户无需改动即可直接使用。
因此,用户可以在阿里云任意可用区,即可实现秒级大规模的RDMA 组网,加速并行计算任务。阿里云 ECS 还提供部署集的能力,保证同一部署集内的 hpc8ae 实例紧凑放置,可以进一步提升 eRDMA 的低时延表现。
E-HPC 一键开启云上仿真任务
此外,阿里云还为客户提供了功能完善的弹性高性能计算服务 E-HPC,客户可一键创建 HPC 集群,通过最高效的集群管理功能,以最简单易用的方式来使用 hpc8ae 实例进行云上仿真任务,包括使用 SLURM、PBS 等常用的调度器,管理和监控 HPC 作业,自动化的安装和部署软件、使用部署集的能力保证时延等,以提高计算效率,优化计算成本。
目前,阿里云E-HPC弹性高性能计算平台已助力众多企业企业缩短研发周期,加快业务创新。其中,帮助上汽乘用车制造仿真效率提升30%,支撑某手机厂商仿真业务性能提升25%。