科技云报道:算力之战,英伟达再度释放AI“炸弹”

简介: 算力的权利游戏仍在继续

科技云报道原创。

近日,在计算机图形学顶会SIGGRAPH 2023现场,英伟达再度释放深夜“炸弹”,大模型专用芯片迎来升级版本。

英伟达在会上发布了新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款搭载HBM3e处理器的新型Grace Hopper超级芯片——GH200,专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式AI工作负载而构建。

640.gif

据悉,GH200芯片将成为世界上第一个配备HBM3e(High Bandwidth Memory 3e)内存的GPU芯片。

与当前一代产品相比,最新版本的GH200超级芯片内存容量增加了3.5倍,带宽增加了3倍;相比最热门的H100芯片,其内存增加1.7倍,传输频宽增加1.5倍。

在当前生成式AI不断激增的需求下,GH200超级芯片的推出,进一步吹响了AI算力之战的号角。

性能更高的GH200芯片

据介绍,GH200 Grace Hopper平台的HBM3e内存比当前HBM3快50%,可提供总计10TB/s的带宽。这使得新平台能够运行比上一版本大3.5倍的模型,同时凭借快3倍的内存带宽提升性能。

同时,该平台采用双配置,包括一个拥有144个Arm Neoverse内核、8 petaflops的AI性能和282GB最新HBM3e内存技术的单个服务器。

英伟达创始人兼首席执行官黄仁勋表示:“为了满足对生成式 AI不断激增的需求,数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper超级芯片平台以出色的内存技术和带宽,提高了吞吐量,在不影响性能的情况下可连接多GPU以整合性能,并且具有可以轻松部署到整个数据中心的服务器设计。”

据英伟达公布信息,新平台可以通过 NVIDIA NVLink™ 与其他超级芯片连接,使它们能够协同工作,从而部署当下大型生成式AI模型。这种高速、一致性技术使GPU可以完全访问CPU 内存,在双配置中可提供总计1.2TB的快速内存。
640.png

值得注意的是,新平台采用的新款超级芯片GH200与此前发布的H100相比,二者使用同样的GPU,但GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽,内存增加了1.7倍,带宽增加了1.5倍。

新平台和芯片的加持,也让大模型训练的成本得到有效降低。黄仁勋表示,一台服务器可以同时装载两个GH200超级芯片,大型语言模型的推理成本将会大幅降低。

据介绍,投资800万美元Grace Hopper,就相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。

英伟达称,GH200已于5月全面投产,基于GH200 Grace Hopper平台的新系统将于2024年第二季度交付。

不过一个关键的问题是,英伟达没有透露超级芯片GH200的价格,这对计算成本高昂的大模型来说尤为重要,H100系列目前售价约为4万美元。

为什么内存对大模型重要?

事实上,GH200超级芯片本身并不是一个新产品,而是今年5月在中国台北Computex展上发布的GH200芯片的更新版。

英伟达超大规模和高性能计算副总裁兼总经理伊恩·巴克(Ian Buck)表示:“我们对这款新的GH200感到非常兴奋。HBM3e不仅增加了GPU的容量和内存量,而且速度也更快。”

但为什么GPU内存这么重要?

这是因为随着支撑生成式人工智能应用程序的基础AI模型尺寸的增加,为了能够在不连接独立芯片和系统的情况下运行,大模型需要更大的内存量,以避免性能下降。

拥有更大的内存允许模型保留在单个GPU上,并且不需要多个系统或多个GPU来运行,而额外的内存只会提高 GPU的性能。

目前即使使用英伟达最顶级的H100芯片,有些模型也必须在其他GPU中“分解”模型才能运行。

据英伟达介绍,最新版本GH200配备141GB的HBM3e内存,旨在处理“世界上最复杂的生成式人工智能工作负载,涵盖大型语言模型、推荐系统和矢量数据库”。

对AI领域的影响

英伟达的GH200超级芯片和DGX GH200超级计算机是AI领域的重大突破,它们为大规模生成式AI工作负载提供了前所未有的性能和内存空间,使得训练千亿甚至万亿参数的巨型模型成为可能。

这些模型可以在自然语言处理、计算机视觉、推荐系统、图形分析等领域实现更高的精度和效率,为人类解决更复杂的问题提供了强大的工具。

在多位AI从业者看来,当前大模型的训练需求过于迫切,对性能的要求也很高,而GPU的适配和生态转移都需要很长时间,因此目前大家都优先选择英伟达,和其他厂商的测试验证也在进行中。

一场新的算力之战已经拉开帷幕,如果说算力是一个江湖,那么此刻英伟达就是一名绝世高手。

它身怀加速计算的绝技,尤其在AI战场上一骑绝尘,似乎每一次都能精准地踏在浪潮的节奏上。从游戏PC市场、到深度学习的崛起、到云计算的普及、再到生成式AI的降临,英伟达的技术所向披靡。

回头看,英伟达早已超越了GPU本身的概念,AI成为最大的标签,算力的绝世武功撑起了新的万亿帝国。

2022年,英伟达推出了多款重磅产品,分别是基于全新Hopper架构的H100 GPU、CPU和GPU的合体Grace Hopper、两个CPU组合的Grace CPU Superchip,CPU的产品在2023年上市。

其中,设计GPU新架构Hopper时,英伟达增添了一个Transformer引擎,专门为Transformer算法做了硬件优化,加快AI计算的效率。

一位国内芯片从业者直言:“H100出来,其实就是一个新时代了,Grace-Hopper再一个组合,加上高配的互联,完全不给活路,英伟达赢家通吃,AMD、Intel继续苦追。”

同时他也表示:“目前国内一些企业还是在盯着CNN做优化,英伟达已经有Transformer引擎,然后AIGC火热,恰好能做支持。这个眼光,只能佩服他们的科学家们对这个领域深刻的认识。”

一位学术界人士也分析道:“从H100上,包括专用的Transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。”

他还表示,Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,存内计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。

总而言之,在GPU和CPU的各种排列组合中,英伟达又将算力提升到了新高度。正如黄仁勋所言:“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”

黄仁勋在采访中还提到,数据中心需要用的CPU越来越少,不再是传统上购买数百万个CPU,而是转而购买数百万个GPU。换言之,在他看来,AI算力江湖已经是GPU的主场。

英伟达的野心

事实上,随着ChatGPT引发AI大模型需求热潮,作为加速计算领导者,英伟达今年以来股价累计涨幅已超过210%,近三个月内涨幅就达56%,过去7年股价增长超40倍,目前市值冲破1.1万亿美元。

公开数据显示,英伟达占据全球80%以上的GPU服务器市场份额,同时拥有全球91.4%的企业GPU市场份额。

据投资者服务公司穆迪今年5月份发布的一份研究报告,英伟达在未来几个季度将实现“无与伦比”的收入增长,其数据中心业务的收入将超过竞争对手英特尔和AMD的总和。

但摩根士丹利策略分析师斯坦利(Edward Stanley)在最新报告中称,根据历史背景,英伟达的股价飙升处于“后期”阶段,摩根士丹利认为这标志着 AI 行业的“泡沫”。

GPU持续紧缺下,如今英伟达产品价格已同比上涨超30%,英伟达A800单卡现货近13万元一颗,eBay上H100售价高达4.5万美元。

同时,OpenAI的GPT-4大模型需要至少2.5万张英伟达A100 GPU芯片,而该公司目前至少已拥有1000万颗GPU芯片。

正如黄仁勋常说的,“你GPU买得越多,你越省钱”。主要原因是新的GPU产品能显著提升加速计算,比CPU性能更强、算力更大、功耗更低。

但英伟达的布局还不止于此。

一个现实问题是,高性能的算力也意味着高昂的价格。大模型训练成本动辄成千上百万美元,并不是所有公司都能承受。

而英伟达同时提出了云服务的解决方案NVIDIA AI foundations,黄仁勋表示要做“AI界的台积电”。台积电大大降低了芯片设计公司生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。

在帮助下游企业降低大模型训练成本的同时,英伟达还在逐步参与到上游的产业链升级中。今年,英伟达牵手台积电、ASML、新思,发布了计算光刻库cuLitho。

计算光刻是在芯片设计和制造领域的关键步骤,也是最大的计算负载之一。计算光刻库的技术突破就在于,可以通过部署有大量GPU的DGX AI计算系统对计算光刻进行加速,使其达到原有的基于CPU的计算速度的几十倍,同时降低计算过程的总能耗。

这将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并为曲线掩模、高数值孔径极紫外、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术提供更多可能性。

在多位产业界人士看来,虽然短期内不会影响到下游的应用方面,但是这些上游的研发和升级将长期影响产业的发展,累积形成代际差。

“英伟达在GPU架构的迭代上,一直都有属于自己的发展路径,这几年的发展,也让英伟达跃居AI算力芯片领域的领导者,也因为领先,所以英伟达会思考如何做更多元的布局与行业内的深度合作,这样更能了解行业的需求,比方和台积电等合作便是很好的例子”,某芯片行业专家表示。

当然,英特尔和AMD都已经吹响反攻的号角。

7月,英特尔面向中国市场推出了AI芯片Habana Gaudi 2;6月,AMD推出AI芯片Instinct MI 300X,两者都直接对标英伟达100系列。

目前,在数据中心市场,英伟达和Intel、AMD形成三足鼎立之势。但随着GH200的正式发布,Grace CPU正式登台争角,最应该感到如芒在背的应该是Intel、AMD。虽说大家都知道GH200迟早发布,但等真正发布了,还是有所触动。

围绕着算力的权力游戏还将继续。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
2月前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
3月前
|
人工智能 并行计算 调度
AI创业公司的算力困境,远比你想象的更复杂
当前AI创业公司面临严峻“算力困局”:不仅受制于高昂成本,更受限于技术封锁、生态绑定与资源低效。算力获取难、用不起、用不好,正成为制约创新的关键瓶颈。
|
2月前
|
人工智能 算法 数据安全/隐私保护
拔俗AI多模态心理风险预警系统:用科技守护心理健康的第一道防线
AI多模态心理风险预警系统通过语音、文本、表情与行为数据,智能识别抑郁、焦虑等心理风险,实现早期干预。融合多源信息,提升准确率,广泛应用于校园、企业,助力心理健康服务从“被动响应”转向“主动预防”,为心灵筑起智能防线。(238字)
|
3月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
3月前
|
人工智能 边缘计算 大数据
【C位面对面】被低估的“通用算力”:为什么 AI 时代CPU 的需求“不降反增”?
AI时代下,大数据、高频交易、AI预处理、边缘计算等核心负载持续推高CPU算力需求。阿里云联合AMD,基于Zen5架构Turin处理器,推出三款场景化云实例:普惠型u2a、高主频g9a及192核g9ae,满足多样算力需求。通过CIPU+Chiplet技术实现性能跃迁,释放CPU真正潜力,助力企业把握通用计算的“第二增长曲线”。
|
3月前
|
人工智能 监控 安全
AI创业公司如何突破算力瓶颈,实现高效发展?
AI创业公司如何在算力竞争中突围?本文揭示真正决定生死的关键在于“用好”算力,而非单纯依赖算力规模。通过混合云调度、GPU虚拟化、边缘推理、跨云高速通道等技术手段,提升算力利用率,降低成本,同时保障数据合规与高效传输。结合垂直场景的深刻理解与技术调度能力,创业公司也能构建坚实护城河,实现快速发展。
“燕缘 · 滴水湖”大学生AI+国际创业大赛 ——算力资源领取说明
本次大赛为每位参赛学生提供300元阿里云算力资源,通过赛事官网链接领取。领取流程包括:点击专属页面、扫码登录阿里云、完成代金券领取,并在“我的权益-可用券”中查看领取状态。注意代金券使用期限和额度,避免超额使用产生欠费。若已领取过,可直接使用。
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
535 35
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
454 30
|
3月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
905 47