《生命科学行业云上解决方案及最佳实践》——阿里云高性能计算生命科学行业解决方案——阿里云 E-HPC 生命科学行业整体解决方案(上) :
https://developer.aliyun.com/article/1227252?groupCode=ecs
2 阿里云弹性高性能计算 E-HPC 介绍
1 E-HPC 产品介绍
基于阿里云自研的神龙架构,阿里云弹性高性能计算 E-HPC(Elastic High Performance
Computing)具备零损耗高性能算力、高性能网络和高性能存储等能力,在云上面向多个垂直行业提供极致性能的 HPC 服务,为客户的应用定制完备的全天候高性能计算环境。
阿里云弹性高性能计算 E-HPC 是国内首个云原生全栈高性能计算 PaaS 平台,为用户提供一站式公共云 HPC 服务,具备快捷、弹性、安全的特性,支持与阿里云产品互通。具体来说,E-HPC提供了 HPC 任务级弹性伸缩、高通量任务处理、作业管理与调度、云上云下混合调度、应用软件管理、资源生命周期管理等多种能力,支持 HPC+AI 应用,面向生命科学行业提供云上 HPC服务。
自动伸缩,敏捷扩容:超越传统高性能计算的“静态”资源分配,阿里云 E-HPC 自动伸缩、并行调度云上集群的“动态”算力,用户应用可根据负载实现按需扩容缩容,节约成本,消灭任务排队和算力不匹配,CPU 利用率达 90% 以上。
稳定轻松,专注专业:依托阿里云自动运维与可视化管控技术,阿里云 E-HPC 提供一系列的可视化集群管理,作业流和科学可视化功能,帮助用户轻松使用云上 HPC 集群。阿里云后台实现对集群的主动运维,热升级与迁移,让客户专注于应用与科研本身,无需关注 HPC 集群的管理与运维工作。
云上性能分析,自动优化:阿里云 E-HPC 可以将并行调优层级分析方法自动化输出为云上“性能大数据收集剖析优化引擎”,提供云上 HPC 业务性能分析与性能调优平台。自动从集群、节点、进程、函数的方式逐层分析关键指标,帮助客户应用以最高效的方式在云计算平台上运行。
2 阿里云超级计算集群 SCC
超级计算集群 SCC(Super Computing Cluster)在弹性裸金属服务器基础上,搭配高性能RDMA(Remote Direct Memory Access)互联网络,大幅提升网络性能,提高大规模集群加速比。SCC 在提供高带宽、低延迟优质网络通信的同时,还具备弹性裸金属服务器性能无损、特性无损的所有优点。
超级计算集群 SCC 主要用于工业仿真、人工智能、机器学习、科学计算、数据分析、音视频处理等高性能计算场景。在集群内,各节点通过 RDMA 网络互联,提供高带宽、低延迟网络,保证了 HPC 应用的高度并行需求。
3 阿里云高性能并行文件存储系统 CPFS
文件存储 CPFS (Cloud Parallel File Storage) 是阿里云完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,支持对数据毫秒级的访问和百万级 IOPS 的数据读写请求,可用于生物制药、基因测序等 HPC+AI 的生命科学行业场景。
多协议互访:同一份数据支持 POSIX、MPI-IO 与 NFS 协议互访
高吞吐:IO 带宽随容量线性提升,最大支持 20 GB/s
高 IOPS:IOPS 能力随容量扩展线性提升,最大支持 280 万 IOPS
低延时:稳定的亚毫秒级 IO 时延
海量文件:全对称的元数据服务器架构,百万级元数据 IOPS 能力
数据流动:支持基于配置策略与 OSS 中的数据进行流动,有效降低冷数据存储成本
2
3