英伟达发布 Hopper H100 新架构芯片:面向 AI、自动驾驶汽车及 Metaverse 领域

简介: 英伟达发布 Hopper H100 新架构芯片:面向 AI、自动驾驶汽车及 Metaverse 领域

3 月 22 日,芯片设计巨头英伟达( Nvidia)在其 GTC 2022 大会上重磅发布了全新架构的 Nvidia Hopper H100 芯片,主要致力于为 AI、自动驾驶汽车、 Metaverse 工具及数字产品提供动力,进一步加速了图形、科学计算和 AI 方面的探索能力。

image.png

英伟达发布 Hopper H100 AI 芯片

作为 Nvidia A100 的“继承者”,全新的 Hopper H100 AI 芯片,采用了向计算机科学先驱 Grace Hopper 致敬的命名方式(Hopper 曾在世界上最早从事计算机科学工作的一批先驱,她发明了被称为“编译器”的关键编程工具,并对 COBOL 编程语言进行了代码开发,且创造了“bug”一词),在秉承了 Nvidia 架构性能翻倍优势的同时,还赋予了更多“超级”能力。

image.png

英伟达(Nvidia)创始人、CEO 黄仁勋在会上分享称,在该公司的 NVLink 高速通信通道中,客户可将多达 256 个 H100 芯片链接到“本质上是 one mind-blowing 的 GPU”上。

image.png

据介绍,全新 Hopper H100 芯片由台积电 5nm 定制版本制程(4N)打造,由高达 800 亿个晶体管共同构成其数据处理电路,有着 40 terabyte 每秒的 IO 带宽,是全球首款 PCI-E 5 和 HBM 3 显卡。

算力方面,全新 Hopper H100 的 FP8 算力达到了 4PetaFLOPS,FP16 为 2PetaFLOPS,TF32 算力为 1PetaFLOPS,FP64 和 FP32 算力为 60TeraFLOPS。

相比上一代 A100 的 400W 功率,全新 Hopper H100 的功率高达 700W,AI FP8 精度算力为 A100 上 FP16 的 6 倍,实现了英伟达“历代最大的性能提升”。

image.png

据悉,英伟达已经计划将 Hopper H100 封装到其 DGX 计算模块中,这些模块可连接到名为 SuperPads 的大型系统中。由于早期 DGX 的客户是 Meta(以前是 Facebook,且 Meta 拥有一台新的巨型 AI 超级计算机用来打造 Metaverse),而英伟达则希望通过自己的 DGX SuperPod 系统 Eos 来超越它。

据黄仁勋透露,Hopper H100 GPU 将在第三季度发货,而Grace“有望在明年发货”。

除了 Hopper H100 之外,此次大会上英伟达还推出了其安培系列图形芯片新成员 —— RTX A5500 ,用于动画、产品设计和视觉数据处理等 3D 任务,主要面向需要图形功能的专业人士。该芯片的推出也与 Nvidia 在 Omniverse 方面的探索相吻合(Omniverse 致力于构建 metaverse 的 3D 领域所需的工具和云计算服务)。

芯片“之争”

对于全新 Hopper H100 的到来,有媒体评论称“不知道会否给很多竞争对手带来压力”,比如英特尔即将推出的 Ponte Vecchio 处理器(该处理器拥有 1000 多亿个晶体管),以及苹果的M1 Ultra、 Graphcore、SambaNova Systems 和 Cebranas 等初创公司推出的一系列专用 AI 加速器的芯片。

image.png

由于 Hopper H100 芯片也会面向自动驾驶汽车领域,因此在英伟达的竞争对手里面有个比较引人注目的厂商,那就是特斯拉(其 D1 芯片为其 Dojo 技术提供动力以训练自动驾驶汽车)。此前,特斯拉制造商方面还曾表示,Dojo 在投入使用后,将会取代 Nvidia 芯片。

在芯片方面,英伟达可能不如英特尔、苹果知名,但在新一代技术实用化方面,英伟却不容小觑。比如其在 Omniverse 方面的探索已跨越了多个领域,包括通过云和数字孪生技术进行的协同 3D 设计等工作,均已反映了计算系统中真实世界的一部分。

尽管对手如云,但英伟达依旧在不断进取且已取得进展。英伟达计划将于 2026 年推出新一代 Hyperion 汽车芯片系列,并预计未来 6 年将从汽车芯片中盈利 110 亿美元。至于在 metaverse 方面的进一步发展和探索,也更值得我们期待。

nvidia人工智能ai芯片

相关文章
|
9月前
|
人工智能 Cloud Native Java
书本大纲:从芯片、分布式到云计算AI时代
本文深入探讨并发编程、JVM原理、RPC框架、高并发系统、分布式架构及云原生技术,涵盖内存模型、同步机制、垃圾回收、网络协议、存储优化、弹性伸缩等核心议题,揭示多线程运行逻辑与高并发实现路径,助你掌握现代软件底层原理与工程实践。
268 7
|
机器学习/深度学习 人工智能 文件存储
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
510 5
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
9026 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
1027 97
|
人工智能 安全 自动驾驶
通义灵码入职表现实测:蔚来汽车AI 生成代码占比在 30% 以上
希望 AI 编程能应用于更加高阶的场景。我对 AI 自动化编程最大的希望是它能够把整个研发过程,变成一个流水线制造的过程,把我们的整个研发流程规范化起来,并且在每一步都能够对人进行一个指引,类似自动驾驶一样。
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|模拟AI场景课程——某汽车厂商
4月18日和19日,东北某市,TsingtaoAI团队为某汽车厂商的智能驾驶业务和研发团队交付“模拟AI场景课程”。本课程基于该厂商在AI领域的战略布局,结合汽车行业智能化转型趋势,以“场景化、实战化、前瞻性”为核心,聚焦AI技术从理论到落地的全链路。通过模拟真实业务场景(如智能座舱优化、智能制造、自动驾驶仿真),帮助学员掌握AI基础能力,并快速应用于研发、生产、营销等环节。
531 4
|
存储 人工智能 缓存
DeepSeek 开源周第三弹!DeepGEMM:FP8矩阵计算神器!JIT编译+Hopper架构优化,MoE性能飙升
DeepGEMM 是 DeepSeek 开源的专为 FP8 矩阵乘法设计的高效库,支持普通和混合专家(MoE)分组的 GEMM 操作,基于即时编译技术,动态优化矩阵运算,显著提升计算性能。
1422 3
DeepSeek 开源周第三弹!DeepGEMM:FP8矩阵计算神器!JIT编译+Hopper架构优化,MoE性能飙升
|
传感器 机器学习/深度学习 人工智能
AI在自动驾驶汽车中的应用与未来展望
AI在自动驾驶汽车中的应用与未来展望
965 9
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
3642 12
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
364 3