图灵奖得主Jack Dongarra:超级计算顶部还有很大空间

简介: 图灵奖得主Jack Dongarra:超级计算顶部还有很大空间

在最近的一次采访中,2021 年图灵奖得主 Jack Dongarra 谈了谈高性能计算当前的发展状况以及未来有潜力的发展方向。



超级计算机可以说是科学计算界的奥运冠军。通过数值模拟,超级计算机丰富了我们对世界的理解:无论是宇宙中数光年之外的恒星、地球的天气和气候,还是人体的运作机理。


四十多年来,Jack Dongarra 一直是高性能计算领域的推动者。今年早些时候,2021 年 ACM A.M. 图灵奖授予 Dongarra,以表彰 "他对数值算法和工具库的开创性贡献,让高性能计算软件在四十多年里能够跟上硬件的指数式发展"。


本文作者 Bennie Mols 于 9 月在德国举行的第九届海德堡桂冠论坛期间见到了 Dongarra,并探讨了高性能计算的当下和未来。现年 72 岁的 Dongarra 是田纳西大学的特聘教授,自 1989 年以来一直是美国能源部橡树岭国家实验室的特聘研究人员。Bennie Mols 是驻荷兰阿姆斯特丹的科学和技术作家。


以下是采访内容


Q1:几十年来,您进行科学研究的动力是什么?


A:我主攻的是数学方面的研究,尤其是数值线性代数方面,我所有的工作都源于此。对于诸如物理和化学这类需要计算——尤其是解线性方程组——的学科来说,一款能计算答案的软件无疑是非常重要的。同时,你还必须确保软件的运行与机器的架构相一致,这样才能真正获得机器所能达到的高性能。


Q2:对于在超级计算机上运行的软件来说,最重要的要求是什么?


A:我们希望该软件的计算结果是准确的。我们希望科学界能够使用和理解这个软件,甚至可以对其改进作出贡献。我们希望软件性能良好,可以在不同的机器上移植。我们希望代码是可读的、可靠的。最后,我们希望软件能够提高使用它的人的生产力。


开发满足所有这些要求的软件是一个非同小可的过程。这种级别的工程往往有数百万行的代码,而且大约每隔 10 年,我们就会看到机器架构发生一些重大变化。这将导致我们需要对算法和体现这些算法的软件进行重构。软件跟着硬件走,在超级计算的顶层仍有很大的空间,来达到更好的机器性能。


Q3:目前在高性能计算方面有什么令你兴奋的发展?


A:我们的高性能超级计算机是建立在第三方元件上的,比方说你和我也能买到高端芯片,只是高性能计算机上需要很多。通常我们在高性能计算机上面以 GPU 的形式使用一些加速器。我们将多个芯片开发板放在一个机架上,许多这样的机架一起组成一台超级计算机。我们使用第三方元器件的原因在于它更便宜,但如果你专门设计芯片来做科学计算,你会得到性能更好的超级计算机,这是一个令人兴奋的想法。


事实上,这正是亚马逊、Facebook、谷歌、微软、腾讯、百度和阿里巴巴等公司正在做的事情;他们正在制造自己的芯片。他们可以这样做,因为他们有庞大的资金,而高校的资金是有限的,因此不幸地不得不使用第三方的产品。这与我的另一个担忧有关:我们如何将人才留在科学领域,而不是看到他们去为报酬更高的大公司工作?


Q4:对于高性能计算的未来,还有哪些重要的发展?


A:确实有一些重要的事情。很明显,机器学习已经对科学计算产生了重要影响,而且这种影响只会越来越大。我认为机器学习是一种工具,有助于解决计算科学家想要解决的问题。


这与另一个重要的发展相辅相成。传统上,我们的硬件使用 64 位浮点运算,所以数字也用 64 位表示。但是,如果你使用更少的比特,例如 32、16、甚至 8 比特,你可以加快计算速度。但是加快计算速度,就会失去精度。然而,人工智能的计算看起来往往可以用更少的比特,16 甚至 8 比特来完成。这是一个需要探究的领域,我们需要找出在什么情况下缩减位数效果好,什么情况下效果不好。


另一个研究领域是关于如何从低精度的计算开始,得到一个近似值,然后再使用更高精度的计算来细化结果。


Q5:超级计算机的功耗如何?


A:现在性能最好的超级计算机消耗 20 或 30 兆瓦,以达到每秒百亿亿次浮点运算的速度。如果地球上的每个人每秒钟做一次计算,那么需要四年多的时间才能完成超大规模计算机在一秒钟内完成的工作。可能在 20 年内,我们要达到 zettaflop 的规模,也就是 10 的 21 次方次浮点数运算。然而,功耗可能会成为限制性因素。你将需要一个 100 或 200 兆瓦的机器,目前来看这太耗能了。


Q6:您如何看待量子计算在未来高性能计算中的作用?


A:我认为量子计算能解决的问题是有限的,它不会解决像三维偏微分方程这样的问题,我们在这方面经常使用超级计算机,如气候建模。

在未来,我们将构建一个包含不同类型计算工具的集成工具。我们将有处理器和加速器,我们将有帮助机器学习的工具,我们很可能有以大脑的方式进行神经形态计算的设备,我们将有光学计算机,此外,我们将有量子计算机来解决特定的问题。


原文链接:https://cacm.acm.org/news/265289-there-is-plenty-of-room-at-the-top-of-supercomputing/fulltext

相关文章
|
4月前
|
人工智能 自然语言处理 Java
AI工具选择困难症?Spring AI帮你省掉64%的令牌费用
你的AI助手有50+个工具但每次对话前就烧掉55000个令牌?就像带着全套工具箱去拧个螺丝一样浪费!Spring AI的工具搜索模式让AI按需发现工具,实现34-64%的令牌节省,告别工具选择困难症和账单焦虑。#Spring AI #工具优化 #令牌节省 #AI开发
545 2
|
4月前
|
前端开发 JavaScript 测试技术
告别Selenium时代:用Playwright解决Selenium的三大痛点
本文分享了团队从Selenium迁移至Playwright的完整历程。通过对比两者架构差异,Playwright因直连浏览器协议,显著提升了测试速度与稳定性。文章详述了分阶段迁移策略、实践技巧与避坑指南,最终实现回归时间缩短60%、维护成本下降70%。这次迁移不仅是工具升级,更推动了团队从“消防员”到“质量建筑师”的思维转变。
告别Selenium时代:用Playwright解决Selenium的三大痛点
|
3月前
|
机器学习/深度学习 人工智能 算法
RAG基石:深入浅出聊透“文本分块”的艺术与科学
你好,我是maoku!本文深入解析RAG系统中决定成败的关键环节——文本分块。从原理到实践,详解分块如何影响检索精度与生成质量,系统梳理5种主流策略(固定长度、句子级、递归、结构化、语义分块),并提供参数调优、效果评估等实战指南。
|
4月前
|
机器学习/深度学习 人工智能 物联网
构建AI智能体:七十八、参数的艺术:如何在有限算力下实现高质量的AI诗歌创作
本文详细记录了通过LoRA技术优化唐诗生成模型的过程。初始阶段模型表现欠佳,出现内容重复和格律混乱等问题,损失值高达1.7467。通过系统性参数调整(包括将LoRA秩从4提升至16、优化学习率和训练轮次等),最终使损失值降至0.069,获得显著提升。文章详细介绍了优化策略,包括数据集的构建(包含180首涵盖四季、山水、抒情等主题的唐诗)、LoRA配置调整和生成参数优化等内容。最终生成的诗歌在格律、意境和多样性方面均达到良好水平,展示了LoRA技术在文学创作领域的应用潜力,为小模型实现专业级创作提供了参考范例
217 3
|
9月前
|
数据采集 前端开发 搜索推荐
《颠覆认知!React 20构建SPA如何在SEO战场碾压传统多页网站》
本内容探讨如何利用React 20重构单页应用(SPA)的SEO策略,打破传统偏见,提升搜索引擎可见性。通过内容预加载、URL优化、元数据管理及用户体验设计,实现SPA在搜索排名中的突破,同时结合数据分析持续优化,助力SPA在现代搜索引擎生态中脱颖而出。
195 8
|
7月前
|
存储 安全 固态存储
基于C#实现的支持文件传输的Socket聊天室
基于C#实现的支持文件传输的Socket聊天室
402 5
|
7月前
|
JavaScript Java 关系型数据库
2025版基于springboot的企业办公用品采购管理系统
本系统旨在优化企业办公用品采购流程,通过自动化、标准化管理,提升采购效率,降低运营成本。结合Spring Boot、Vue、Java与MySQL技术,实现需求申请、审批、采购、入库全流程数字化,助力企业实现高效、智能的采购管理,增强市场竞争力。
|
10月前
|
数据采集 机器学习/深度学习 编解码
从零复现Google Veo 3:从数据预处理到视频生成的完整Python代码实现指南
本文详细介绍了一个简化版 Veo 3 文本到视频生成模型的构建过程。首先进行了数据预处理,涵盖了去重、不安全内容过滤、质量合规性检查以及数据标注等环节。
628 5
从零复现Google Veo 3:从数据预处理到视频生成的完整Python代码实现指南
|
传感器 人工智能 数据可视化
数智入海,GIS赋能智慧海洋
随着科技发展,各国积极推进海洋数字化建设,建立全球海洋观测网络,获取实时数据并挖掘价值。我国从“十四五”规划到二十大报告强调海洋强国战略,利用地理空间信息技术和物联网整合监测数据,提供智能管理与决策支持,实现海洋环境的可视化三维场景、实时监测、环境保护、灾害预警及专题图件服务,推动海洋经济高质量发展。
|
存储 JSON 测试技术
Python中最值得学习的第三方JSON库
Python中最值得学习的第三方JSON库
546 0

热门文章

最新文章