全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍-阿里云开发者社区

全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍

2023-05-12 282

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍

E 级超算，每秒钟百亿亿次运算，1 后面跟 18 个零。

2018 年 6 月，美国能源部橡树岭国家实验室的工程师们发布了「Summit」超级计算机，超越神威 · 太湖之光成为了世界第一，它的理论峰值容量接近 200 petaflops——即每秒 20 万万亿次浮点运算，使用 IBM Power9 处理器和英伟达 Tesla V100 加速卡。

不过两年后，Summit 就被使用 Arm 架构的日本「富岳」超过，目前排名第二。

今年 11 月最新版的超算 Top 500 榜单。

顶级超算迭代的速度如此之快，但仍然无法比拟人们的需求。在服役短短的四年时间内，橡树岭实验室对超算服务的需求就已经超过了这台巨大机器的容量。

「Summit 算力会被超额认购四到五倍，」负责 ORNL 领先计算设施的 Justin Whitt, 说道。「这限制了使用它的进行研究项目的数量。」

现在，是时候讨论更快的超级计算机了。橡树岭国家实验室的下一个计划名叫 Frontier，完成后它将具有超过 1.5 exaflops 的峰值理论容量。

Frontier 的非凡之处并不在于它要比 Summit 强七倍以上——这个数字显然是令人惊叹的。更值得注意的是，它做到这一点只用了两倍的功率。这仍然是一个很大的功率——Frontier 预计将消耗 29 兆瓦，足以为加利福尼亚州库比蒂诺（苹果公司所在地）大小的城镇供电。但这是一个可控的数量。

「我们现在可以在很小的空间内塞进更多的计算机硬件，」Whitt 表示。「这些计算机机柜每个都与全尺寸皮卡一样重。」里面装满了 ORNL 的规格表所描述的「由高性能计算和 AI 优化的 AMD EPYC 处理器与 Radeon Instinct GPU 加速器驱动的高密度计算板卡，它们专为满足百亿亿次计算的需求而构建。」

建造一台具有这种能力的超级计算机已经够难了，新冠疫情也让事情更加具有挑战性。「供应链的问题其实很广泛，」Whitt 表示，许多对构建高性能超级计算机来说并不特殊的东西存在短缺。「它可能只是金属板或螺丝。」

供应链问题确实是 Frontier 将于 2022 年在另一台计划中的超级计算机 Aurora 之前投入运行的原因，后者将安装在伊利诺伊州的美国能源部阿贡国家实验室（Argonne National Laboratory, ANL）。Aurora 是在 2018 年先上马的，但它的建设被推迟了，因为英特尔很难提供这台机器所需的处理器和 GPU。

在团队最初的规划中，Frontier 这台巨型机器将在 2021 年底之前交付，并在 2022 年全面投入使用。所以，它可以被称为世界上第一台百亿亿级超级计算机吗？

那要看每个人的定义了：「（日本的富岳超级计算机）实际上是在不同的基准实现了 2 exaflop 的混合精度计算，」田纳西大学的 Jack Dongarra 说，他是 Top500 名单背后的专家成员之一。他解释说，这些排名是基于涉及 64 位浮点计算的基准，此类计算多用于解决许多物理模拟所需的三维偏微分方程。「这是应用超级计算机的底线，」Dongarra 说。但他也指出，超级计算机越来越多地用于训练深度神经网络，在这方面 16 位精度就足够了。

还有一个特殊的例子「Folding@Home」，这是一个旨在模拟蛋白质折叠的分布式计算项目。几十万名玩家捐出了自己的 GPU，通过众源的方式，Folding@Home 超级计算机实现了超过 1 exaflop（每秒 1 百亿亿次浮点计算）的处理能力。

「我会称它为专用计算机，」Dongarra 说，每个人都可以参与完成这项工作，因为涉及到大量并行的计算。也就是说，每一台计算机可以独立执行所需的计算，它们之间几乎不需要进行网络通信。2020 年 3 月，Folding@Home 项目宣布：「我们已经跨越了 exaflop 的障碍！」

但如果坚持使用一般基准的话，也就是用于 Top500 排名的基准，世界上任何一台超级计算机都还没有资格成为百亿亿级计算机。Frontier 可能是第一台，或者说，它有望成为第一台已知的百亿亿级超级计算机。Dongarra 解释说，在 2021 年 6 月的 Top500 排名出炉之前，有传言说中国至少有一台或两台已经在百亿亿级运行的超级计算机。

Top 500 超算榜单半年更新一次，直到 11 月的榜单出炉，前几名没有新超算揭幕。Frontier 会不会被中国的超算截胡呢？

2020 年 1 月 2 日，《科学》杂志刊文展望了 2020 年可能成为头条的十大科学新闻，其中包括中国或建造全球首台 E 级超算。据公开报道，「天河 3 号」E 级超算验证机进展顺利。

今年 7 月，由国防科技大学研制，部署在国家超级计算天津中心的「天河」E 级计算机关键技术验证系统在国际 Graph500 排名中，获得 SSSP Graph500（单源最短路径）榜单世界第一和 BIG Data Green Graph500（大数据图计算能效）榜单世界第一的成绩。图计算在大数据和人工智能领域应用广泛，相比于 Top 500，Graph500 榜单更偏向与应用。

今年 12 月 12 日，天津中心和国防科技大学，联合数十家合作团队共同发布了「面向新一代国产 E 级超级计算系统的十大应用挑战」。

据介绍，新一代百亿亿次（E 级）高性能计算机的研发，是国家在新一代信息技术领域的重要部署，其自主化程度远高于其他超算平台，同时规模与性能也会大幅提升。

或许在明年，悬念就将揭晓。

参考内容：https://spectrum.ieee.org/exascale-supercomputinghttps://www.top500.org/lists/top500/2021/11/https://www.thepaper.cn/newsDetail_forward_13434752

全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍

热门文章

最新文章

相关课程

相关电子书

相关实验场景