导语:2022年9月20日,“阿里云EDA上云解决方案”节目正式上线,三位来自阿里云的专家从多个角度带大家了解阿里云如何助力芯片设计驶入“云端高速路”。阿里云高性能计算高级技术专家-贺荣徽带来了题为《阿里云弹性高性能计算E-HPC产品介绍》的主题分享,以下是他的演讲内容整理,供阅览:
一、弹性高性能计算E-HPC产品概述
1. E-HPC产品设计出发点
弹性高性能计算E-HPC产品旨在帮助客户在云上快速搭建HPC环境,并充分体验云服务的优势。
E-HPC产品设计主要考虑以下三个方面:
- 按HPC客户的理解构建云上超算环境:客户对HPC环境的理解是一个部署好相应软件的紧耦合集群,而不是离散的服务器、存储网络;
- 按HPC客户的习惯提供超算服务:客户对HPC使用有长期固化的业务工作流,云服务需要匹配其现有的使用流程;
- 组合服务能力提供新模式/新体验:通过云服务的特点,提供线下HPC不常见或不存在的模式,形成云超算的特征。
2. HPC产品解决方案视图
- 集群资源生命周期管理:包括集群创建、集群扩缩容、基于应用负载的自动伸缩、集群管理与运维;
- 集群作业管理与调度:包括调度器管理与配置、作业调度、作业负载监控与报表、第三方调度器集成、云上云下混合调度;
- ISV应用软件与运行环境管理:包括应用软件部署、集群账户管理、Estack;
- E-HPC性能服务:包括性能数据可视化、性能剖析和优化、数据缓存;
最后,通过OpenAPI的方式提供业务入口,用户可以通过云桌面或本地客户端来使用E-HPC服务。
二、E-HPC产品功能
E-HPC产品主要有四大功能:集群管理、自动伸缩、业务报表和性能分析。
集群管理:以HPC集群的方式帮助客户编排、使用云上IaaS资源,包括:
- 集群资源管理;
- 集群用户管理;
- 集群作业与调度器管理;
- 云上云下资源打通;
自动伸缩:根据HPC作业负载实际需求,动态伸缩集群资源,包括:
- 作业负载检测与统计;
- 资源加入/离开调度器;
- 多种维度的伸缩策略;
业务报表:监控HPC集群维度的业务数据,形成时序图表和统计报表,包括:
- HPC作业实时监控与统计;
- HPC集群资源监控与统计;
- 作业/资源运行事件通知与告警联动;
性能分析:针对HPC作业进行硬件级、进程级及函数级的性能分析与性能报告,包括:
- HPC作业性能监控;
- HPC作业性能剖析;
1. E-HPC集群管理
E-HPC提供集群资源创建、部署、集群节点状态管理等集群管理服务。
如图,左侧是常见的集群图,包括:图形节点、头节点、计算节点和文件存储;图右是将集群对应到云上,结合阿里云服务组件:ECS实例、GPU实例、无影云桌面,在E-HPC控制台一键创建集群。
E-HPC管控服务帮助客户管理一个地域下一个或多个集群,监控集群状态,实现报表、告警、性能剖析等业务。
2. E-HPC集群资源扩缩容
F-HPC的集群资源扩缩容分为两种:手动扩缩容和自动扩缩容。
- 手动扩缩容:由用户指定所需要的资源类型和数量直接扩容,E-HPC会负责创建对应的资源,并完成相关的软件部署、加入调度器对应队列、设置资源状态可用等操作;缩容时也会完成调度器的相应配置,从调度器清理相关计算节点信息等操作;
- 自动扩缩容:会与调度器结合,自动伸缩的触发不需要用户直接参与,用户只需要配置好自动伸缩策略,E-HPC会与调度器打通感知作业负载,按照配置好的策略进行扩缩容。
自动伸缩最佳实践:https://help.aliyun.com/document_detail/257919.html
负载感知:
- 感知并行资源需求:核数、节点数、内存、GPU等;
- 感知并行管理需求:需扩容的队列、vnode等;
- 阈值限定:用户资源上限、集群资源上限、队列资源上限等;
- 调度策略:调度优先级、作业间依赖关系限制等;
E-HPC提供多种扩容策略,包括:
- 扩容实例规格优先级;
- 跨AZ/跨地域;
- 分队列扩容;
- 分批次扩容;
- 扩容等待时间;
- 保留实例;
- 自动回收等待时间/等待策略;
- 成本优化;
- 库存策略;
- ……
3. E-HPC集群事件监控与业务报表
由于E-HPC服务和HPC调度器紧密结合,E-HPC可以将调度器层面、作业层面的细粒度事件生成监控数据和报表数据,方便用户分析业务状态,获取业务瓶颈,优化业务流程。
基于事件实现扩容水位超量告警:https://help.aliyun.com/document_detail/450081.html
4. E-HPC混合集群方案(云下管控为主)
在以云下管控为主的组网方案中,头节点在线下机房,E-HPC负责与线下机房调度器打通,实现根据调度器负载扩缩容云上资源的能力。
同样,客户可以选择手动扩缩容,E-HPC根据客户需求将云上的计算节点进行扩展并加入线下调度器。
代理模式架构图
a. 方案特点:
- 习惯一致:原有本地HPC 集群无需变更,不改变原有用户使用习惯及调度器脚本;
- 一键创建:云上一键创建E-HPC 集群,Proxy 节点代管理云上资源,融合云上自动伸缩及报表服务;
- 弹性伸缩:业务高峰期扩容线上资源,按需计费;业务低谷线上资源自动释放,节省成本;
b. 适用场景:
继续使用原线下机房的已有HPC集群,基于业务的高峰低谷来进行云上资源的灵活扩容即释放,快速供应并节省成本。
创建混合云集群:https://help.aliyun.com/document_detail/84850.html
5. E-HPC混合集群方案(云上管控为主)
以云上管控为主的组网方案被称作纳管线下节点,以云上HPC集群为主集群,头节点和登录节点都在云上,线下节点作为辅助和利旧。
主控模式架构图
a. 方案特点:
- 云上代运维:云上E-HPC 管控,HPC调度器维度的资源管理,节省线下集群的运维成本;
- 纳管云下:云上一键创建E-HPC 集群,纳管本地线下计算资源,利旧原线下设备;
- 弹性伸缩:业务高峰扩容线上资源,按需计费;业务低谷线上资源自动释放,节省成本;
b. 适用场景:
原有线下机房HPC集群资源老旧,希望弹性灵活使用云上资源,逐步向云上过渡,同时纳管原有线下计算资源,高效节省成本。
混合云主控模式最佳实践:https://help.aliyun.com/document_detail/451757.html
6. E-HPC集群调度器兼容方案
E-HPC提供了调度器插件作为平台的外扩组件,在E-HPC现有调度器类型或版本不满足当前业务时,客户可以通过该插件构建自定义调度器并接入E-HPC平台的能力。
通过插件机制实现第三方/商业调度器集成:
- E-HPC管控通过插件框架接口进行集群管理,包括作业管理、资源管理、负载监控、扩缩容等;
- 插件代码自定义实现插件框架定义函数,完成与调度器的适配;
- E-HPC集群创建流程支持自定义插件安装部署
- 支持通过配置文件方式配置插件支持的功能
- E-HPC提供插件模版及PBS、LSF等调度器插件样例。
E-HPC集群调度器插件:https://help.aliyun.com/document_detail/424726.html
以上就是我本次的分享,谢谢大家。
点击这里,观看嘉宾精彩视频回放。