阿里云研发工程师:HPC优化实例动手实验讲解

简介: 近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。


 

引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。


本文整理自阿里云高性能计算研发工程师曹杭在【HPC优化实例商业化发布会】中的动手实验分享,集中讲解HPC优化实例动手实验Demo细节。


【 单节点的摩托车外流场仿真实验 & 多节点大规模并行的6000万网格风电场模拟实验 demo讲解 】

 

HPC8ae实例性能解读


Hpc8ae优化实例有以下几个特点。


首先它是基于AMD一站式的Zen4 Genoa处理器,基频是3.4GHZ,BOOST3.75GHZ,其次比较重要的是其有内存带宽的增强,适用于仿真HPC应用,比如气候气象、CFD的Fluent等等工业仿真应用。



第三点是其支持云上的eRDMA,支持大规模的并行运行应用的通信需求。最后一点是,这是首次AMD实例支持向量指令集AVX512。上图右侧给出一些细节参数,包括eRDMA 8us时延,实测了浮点峰值3.63GFlops,实测内存带宽,stream带宽603GB/S。


【 HPC应用性能提升表现 】


基于E-HPC的单节点摩托车外流场仿真实验



上述实验我们依然是基于ehpc来做,包括以下几个步骤:


1、使用EHPC集群创建HPC集群;

2、部署OpenFoam环境,使用开源的CFD仿真软件,用其做实验;

3、EHPC-Portal算例前处理演示;

4、提交“作业”进行计算运行;

5、可视化结果。



上图右侧是ehpc界面展示。


以下为【单节点的摩托车外流场仿真实验】详细操作分解:


1首先创建一个集群。大部分选项可以选默认,之后选关键节点,选择从c8ae小规格实例作为管理节点,保存配置。配置计算队列,选高带宽低时延eRDMA网络。可用区切换到M区,实例规格选择HPC8ae优化实例;


2、选择存储。如果有创建可以直接默认,软件部分会有OPEN Foam,后续会添加OPEN Foam环境;登录节点修改成c8ae实例;保存配置,确认配置没有问题后,可以直接设立密码和创建集群。(由于时间关系,我们直接关注已经创建出来的现成集群),扩容时选择HPC8ae实例扩容,此处已经扩容出实例,有6个节点;


3、直接登录上集群。OPEN Foam环境已经部署好;回到控制台,从portal进入,重新登录,进入到submit,提交OPEN Foam作业,已经编排好的摩托车的仿真实验的作业模板;


4、选择作业队列。下面是计算节点和任务数,直接点击提交作业;作业正在RUNNING,也可以从portal进入看到步骤;通过会话管理进到VNC,新建一个会话localhost提交作业;窗口打开了VNC的terminal,因为作业还在运行,先看前处理部分,这是仿生的摩托车模型;


5、等作业运行32个进程。VNC通过调度器命令可以直接看作业运行状态,作业已经结束了,状态可以看到是一个compute状态;回到VNC,再看一下后处理流程。这里用parafoam看一下结果文件;来到paraview界面,查看速度场的变量情况;点击wireframe可以看到仿真速度场结果,这是后处理速度场部分。


到这里,第一个实验,单节点的摩托车外流场仿真实验已经结束,大家可以参照上面的步骤及视频来动手操作。



多节点大规模并行的6000万网格风电场模拟实验


第二个实验,多节点大规模并行的6000万网格风电场模拟实验。和第一个实验操作流程类似,这个模型更大,六千万网格的风电场模拟实验,这一部分主要区别是性能表现。



Demo实验亮点的总结


第一点,单节点性能的大幅领先;第二点,大规模并行HPC集群一键部署与仿真的作业管理支持;第三点,HPC实例+eRDMA,通信低时延高带宽并行效率有明显保证。第四点,E-HPC PORTAL对HPC业务的一站式前后处理支持。


后续OpenFOAm在E-HPC优化实践的实验,HPC的优化实践的实验也会上架到EHPC控制台。后续会直接给出一个集群模板,一键部署OpenFOAm集群例如气候、气象、集群等。

相关文章
|
1月前
|
人工智能 并行计算 安全
从零到一,打造专属AI王国!大模型私有化部署全攻略,手把手教你搭建、优化与安全设置
【10月更文挑战第24天】本文详细介绍从零开始的大模型私有化部署流程,涵盖需求分析、环境搭建、模型准备、模型部署、性能优化和安全设置六个关键步骤,并提供相应的示例代码,确保企业能够高效、安全地将大型AI模型部署在本地或私有云上。
291 7
阿里云最新产品手册——阿里云核心产品——智能计算灵骏——提供性能
阿里云最新产品手册——阿里云核心产品——智能计算灵骏——提供性能自制脑图
147 1
|
4月前
|
弹性计算 关系型数据库 MySQL
新一期陪跑班开课啦!阿里云专家手把手带你体验RDS通用云盘核心能力
本次课程将手把手带领用户创建一个云数据库RDS MySQL(通用云盘),并通过云服务器ECS对RDS MySQL实例进行压测,体验IO加速和IO突发带来的性能提升;并通过DMS执行DDL,将数据归档到OSS,再结合云盘缩容,体验数据归档带来的成本优势。
|
4月前
|
弹性计算 运维 Java
揭秘!如何用SAE在几分钟内部署应用,让你的开发速度飞跃式提升?
【8月更文挑战第21天】在现代软件开发中,快速部署与高效运维至关重要。SAE(Serverless App Engine)作为一款全场景Serverless云应用引擎,极大简化了云应用的部署与管理。开发者仅需专注业务逻辑,SAE则负责底层资源。通过自动扩缩容、弹性计算等功能,SAE降低了资源管理的复杂度,加速了从代码到部署的进程。创建应用后,只需上传如Spring Boot应用的Jar包,SAE便会自动完成部署与健康检查,确保应用稳定运行。无论是初创企业还是大型组织,SAE均能提供高效便捷的部署方案。
48 0
|
5月前
|
人工智能 Serverless 异构计算
[AI Cog] 想要运营AI业务,但没有GPU?环境搞不定?使用Cog帮您轻松将业务部署上云
[AI Cog] 想要运营AI业务,但没有GPU?环境搞不定?使用Cog帮您轻松将业务部署上云
|
5月前
|
人工智能 运维 Serverless
基于 Serverless 计算快速构建AI应用开发陪跑班开课啦!
云端问道第8期开课啦!参与直播间动手实操即可获得保温杯,参与直播间活动可抽奖无线充电器!!您将在课程中学习到基于Serverless技术函数计算FC实现基于Serverless 构建企业级AI应用的解决方案,降低 GPU的使用成本、减少企业或个人创业的试错成本、简化开发运维,让人人都可以拥有自己“专属”的AIGC环境成为可能!阿里云技术专家将手把手带您实操,还将针对实操中的问题进行一对一答疑!机会难得,快来参加吧!
276 9
|
运维 负载均衡 Cloud Native
带你读《浅谈阿里云通用产品线Serverless的小小演化史》------导论
浅谈阿里云通用产品线Serverless的小小演化史(1)
106 1
|
机器学习/深度学习
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——主要特点
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——主要特点自制脑图
134 3
|
机器学习/深度学习 Cloud Native
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——三大云原生功能模块——PAI DSW
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——三大云原生功能模块——PAI DSW自制脑图
217 2
|
机器学习/深度学习 Cloud Native
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——三大云原生功能模块——PAI-DLC
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——三大云原生功能模块——PAI-DLC自制脑图
231 1

热门文章

最新文章