北京科学智能研究院蔡淳:阿里云倚天710实例助力ABACUS新实践

简介: 稳定的主频,扩展性优秀以及超高的性价比

编者按:2022115日,“倚天开启云原生算力新时代”专场在杭州·云栖大会D馆云栖科创SHOW场举行,北京科学智能研究院高性能计算团队负责人蔡淳发表了《倚天助力AI for ScienceABACUS新实践》的主题分享。本文根据该演讲整理而成,主要分为三个部分:

1.  AI for Science探索材料研发新范式

2.  倚天710的适配与调优

3.  基于E-HPC的万核级别算例验证

 1-尺寸调整.jpg


图:北京科学智能研究院高性能计算团队负责人 蔡淳

 

01  AI for Science探索材料研发新范式

 

2.PNG

 

首先,讲一讲AI for Science如何定义材料研发流程中的新范式。材料创新是药物设计、新能源等领域发展的源动力。材料研发的范式由传统的大量重复实验试错,升级为先通过理论模拟筛选出可能的材料,再进行验证研发的计算驱动流程。

 

但是,在进行理论模拟的过程中,维数灾难阻碍了高精度计算的进行。借用保罗·狄拉克所说:“有了量子力学之后,对于所有的化学问题和大部分的物理问题,所依照的基本物理定律都已经明确,困难仅在于这些定律的精确应用会导致数学方程过于复杂而无法求解。”

 

3.PNG

 

为了解决维数灾难的问题,科学家把最基础、最精确的物理模型层层抽象,在不同体系中,选择相对应的物理模型,以保证能在合理的时间内给出计算结果。但不同尺度的物理模型,在时间和空间上有多个数量级的差异,结果的精度也有不小差距。

 

AI for Science方法旨在解决上述问题:它能够通过机器学习的方式,将高精度方法下学习的特征应用到更大体系下,同时拥有高精度的计算结果,以及高效率的求解时间

4.PNG

 

在原子尺度分子模拟方法方面,还存在一些挑战。传统的分子动力学方法,需要科学家提供力场经验参数,势函数开发周期非常长。

 

对于密度泛函理论(DFT)来说,DFT软件的代码分支非常庞杂,研发周期长;DFT算法使用了交换关联泛函近似,但精度越高的近似方式计算量越大。

 

5.PNG

 

深度势能方法是基于机器学习的分子动力学方法。它很好地耦合了科学计算、机器学习与高性能计算。

 

左侧的图展示了深度势能方法的训练流程。它通过DFT计算原子势,用神经网络学习势函数,最后将它应用到分子动力学中,从而实现高效率、高精度的计算。

 

上图中间的结果,展示了深度势能方法和传统DFT方法计算得出的分子径向分布函数对比,其结果非常一致。

 

6.PNG

 

DFT是一种通过求解薛定谔波函数方程,直接求解物质性质的算法。

 

假设给定一个晶体的晶胞参数等信息,通过DFT方法计算可以得到它的电导率、体系密度等基本的物理性质。它是几乎不需要经验参数的第一性原理方法。研究者也凭借着这项工作获得1998年的诺贝尔化学奖。

 

7.PNG

 

如上图公式所示,密度泛函理论的核心是,将系统的总能量E表示为电子密度ρ的泛函。

 

左下角展示了DFT的雅各布天梯,从最简单的局域密度近似开始,以计算量为代价,逐渐接近通过精确的量子力学方法计算得到的结果。DeePKS方法采用神经网络模型表示高精度方法与低精度方法之差;研究人员可以使用DeePKS软件,先使用低精度的泛函,用比较高的效率给出结果,再将结果加上DeePKS方法给出的修正值,从而让计算结果逼近高精度的泛函。右图是水分子中氧元素之间距离的径向分布函数:DeePKS方法和高精度DFT方法计算的结果能够很好的吻合;相比之下,使用PBE泛函的计算结果会出现比较大的偏差。

 

8.PNG

 

AI+材料科学范式需要依赖DFT软件为AI模型训练产生数据;训练中的模型会再次影响DFT软件的计算结果,这一过程需要反复迭代直至收敛,其中需要进行大量的DFT计算。

 

9.PNG

 

ABACUS(中文名“原子算筹”)是一款国产开源的密度泛函理论软件。ABACUS最早是由中科大的何力新老师课题组发展起来的,并且在20213月加入Deep Modeling开源社区。

 

作为一款科学计算软件,ABACUS研发突破了传统课题组的代码开发方式,把代码托管在GitHub平台,欢迎开源贡献者一起进行新功能的开发以及错误的修复。


加入DeepModeling社区之后,ABACUS迎来了来自中科大、北京大学、物理所以及北京科学智能研究院(AISI)等不同单位的贡献者。

 

值得一提的是,北京科学智能研究院(AISI)是鄂维南院士在2021年建立的首个以AI for Science为使命的科学研究机构

 

02  倚天710的适配与调优

10.PNG

 

接下来,为大家介绍ABACUS如何迁移到倚天710云平台。倚天710的操作系统是阿里云提供的Ali Linux3,它能够很好地支持现有Linux的软件生态。用户在安装软件时,可以直接从包管理器下载需要的依赖,不再需要重新手动编译。

 

倚天710芯片是基于ARM v9架构开发的,支持SVEINT8mmBF16mm等指令集加速。除此之外,ARM平台为大家提供了高性能的数学库,它可以让研究者注重算法开发,不需要操心矩阵计算的实现方式。

 

11.PNG

 

上图是ABACUS自带算例进行的性能对比图。最右边一列是倚天710的计算时间,它和七代x86架构CPU以及六代高频实例,在计算时间上是一致的。

 

需要注意的是,上面的测试中倚天710使用的实例是4xlarge规格,仅为x86实例的一半。这个结果得益于倚天710独立物理核心独立cacheALU性能,且无超线程损耗

 

03  基于E-HPC的万核级别算例验证

12.PNG

 

研究人员在阿里云E-HPC上,进行了贴近实际算力的验证。阿里云团队提供的弹性高性能计算E-HPC服务,从ECS的虚拟机镜像创建计算节点,实现计算集群资源的弹性伸缩,保障计算在云上与本地超算类似的操作体验下高效进行。

 

E-HPC在创建ECS实例时,可以选用竞价实例,让时间要求不敏感的科学计算任务,在云平台资源使用的低谷期,以非常低廉的价格进行科学计算。

 

13.PNG

 

ABACUS针对350 eV的极端高温下的32个硼原子体系,在由倚天710实例构成集群上进行了最新发展的Stochastic DFT方法的计算。

 

如上图所示,研究人员使用了11008个倚天710CPU核心,即86128核节点。这是一个弱扩展的任务,每个核心数的运算量是一定的,计算资源消耗随着核心数增加而线性增加

 

ABACUS实现的轨道并行和K点并行两种不同的任务划分模式下,计算时间都在有限范围内增长,并行性能非常好。在软件精度方面,不同的核心数计算得到的能量和压强一致,计算结果是正确的。

 

每个展示的数据点都由十个随机种子初始化进行计算,以避免系统性的随机误差。随着计算量的增加,压强和能量的标准差在不断地收敛,直至理论的最优值。在实际运算时,研究员可以针对下游任务需要的精度,选用相应的核心数进行计算。

 

14.PNG

 

本次实验验证了倚天ECS实例的下列优势:

 

首先,倚天710有着稳定的主频,它能够保证在高密计算的科学计算场景下不降频,保持性能输出的一致性。

 

其次,倚天710实例的扩展性优秀,它能够在1万级别的核心规模上,实现接近线性的加速。

 

最后,倚天实例的性价比相较于x86非常高,研究院可以节省将近70%的成本。


倚天帮助我们在传统的科学计算任务由本地超算部署到云平台的过程中,实现降本增效。

相关文章
|
9月前
|
弹性计算 Java 大数据
揭秘企业数据智能创新奥秘 | 2023云栖大会倚天专场
【倚天专场】邀请了弹性计算、操作系统、平头哥、ARM中国等专家为大家解读阿里云倚天ECS实例最新进展,包括云原生处理器最新技术、龙蜥+倚天软硬件结合、倚天ECS实例最佳实践等话题,为客户上云提供一个更具“性价比”的选择,加速企业数据智能创新。
|
存储 人工智能 运维
信通院2023无代码入选案例-云速搭CADT助力吉利汽车智能化应用加速
信通院公布2023低代码·无代码最新评估结果,阿里云两案例入选!
170 0
《云上高性能计算加速药物研发:深势科技案例分享》电子版地址
新药的诞生通常需要经历药物发现、临床前研究、临床试验和审批等阶段后,最终才可以获批上市。在靶点发现、化合物合成等药物发现阶段以及化合物筛选等临床前研究阶段,往往需要借助高性能计算强大的计算能力才能加速研发过程辅助药物设计。
113 0
《云上高性能计算加速药物研发:深势科技案例分享》电子版地址
|
存储 数据采集 弹性计算
2022中国算力大会丨阿里云祝顺民:智能云网络,助力算网架构新探索
近日,由工业和信息化部与山东省人民政府共同主办的“2022中国算力大会”在济南举办。山东省委书记、省人大常委会主任李干杰,工业和信息化部党组成员、副部长张云明出席开幕式并致辞。阿里巴巴集团研究员、阿里云云网络产品线总经理&达摩院XG实验室负责人祝顺民在《新型算力网络,赋能东数西算》专题论坛发表演讲。
635 0
2022中国算力大会丨阿里云祝顺民:智能云网络,助力算网架构新探索
|
物联网 大数据 新制造
活动回顾|阿里云ACE—智能制造和工业互联网专场
3月17日下午,由阿里云ACE和宁波硬功馆科技有限公司联合主办的"阿里云ACE—智能制造和工业互联网专场"活动在宁波市软件园二期,阿里巴巴创新中心宁波高新基地成功举办。
|
人工智能 异构计算
|
机器学习/深度学习 人工智能 大数据
【杭州云栖】异构计算:软硬件结合全栈助力AI大爆发
2018杭州云栖大会,异构计算专场精彩回顾
6403 0
|
新零售 人工智能 云计算
预告|阿里云华北5地域将于十月开放服务 全系25G网络,侧重服务人工智能行业
今天,我们很高兴地宣布,阿里云华北5地域(Region)将于10月开放服务,该地域将部署领先的人工智能、机器学习计算资源及国内首个全系Skylake+25G网络的环境,提供高性能、高可用、低时延、低成本的云计算和人工智能服务。
2125 0