对于全球游戏玩家和 AI 从业者来说,一个重要时刻到来了。
刚刚,同样是在自家厨房,英伟达创始人黄仁勋向世人发布了最新一代消费级显卡 GeForce RTX 30 系列的最初三个型号 GeForce RTX 3070、RTX 3080、RTX 3090。
「无论性能还是能效,安培架构 GPU 都是图灵的两倍,」黄仁勋说道。「从架构、定制流程设计、电路、逻辑、封装、series IO、显存、供电、散热、软件和算法…… 我们在所有层面压榨 GPU 的性能,最终实现了世界水平。」
剧透:壁橱抹刀瓶后有惊喜。
关于这次发布,网上早已有各类信息提前曝光。但大家最为关心的就是 GeForce RTX 30 系列的性能与报价。用老黄的话说就是,与 2080 价位相同,但速度提升了一倍。而 3090 更是 GPU 中的猛兽,黄仁勋称之为 BFGPU(big ferocious)。
这些公版GPU的国行价格也第一时间出现在了英伟达中国官网上:
当今最强 GPU
在深度学习、光线追踪的一系列热场后,黄仁勋突然从放置抹刀的瓶子后,拿出了了一块 RTX 3080,开始正式介绍 RTX30 系列。
总体来说,GeForce RTX 30 系列确实占据了 GPU 界的多项「第一」:首款有着 24GB GDDR6X 显存的游戏图形卡;首批支持 HDMI 2.1 的 GPU,一块显卡即可实现 4k 高刷新率或 8k 游戏;首批支持 AV1 编译码器的独立 GPU,实现以更少的带宽观看更高分辨率的视频流。
最大号的 GeForce RTX 3090,当然还是要从烤箱里拿出来。
RTX 3090 是世界上第一个 8K 游戏 GPU。为什么一定要 8K?在英伟达看来,分辨率的提高会让视觉效果更加清晰锐利,让玩家更好地辨认出远方的游戏元素,以及让细节更加真实,比如头发、衣服缝线和皮肤皱纹。
这款显卡更类似于 Titan 系列,比上一代「正常范围内」的最高级显卡 GeForce RTX 2080 Ti 的性能要强大许多。RTX 3090 将于 9 月 24 日上市,起始价为 1499 美元。如果说没有传说中 40G 显存的新泰坦,它就是旗舰 GPU 了。
在具体参数上,RTX 3090 使用代号为 GA102 的核心,和前代泰坦一样拥有 24G 显存,但型号升级为 DDR6X(镁光提供),显存速度 19.5Gbps,384bit 位宽,拥有 10496 个等效 CUDA 核心,相比 GeForce RTX 2080 Ti,3090 的核心数量增加一倍不止,功耗则达到了 350W。
另外,RTX 3080 是 320bit 位宽,内建 8704 个 CUDA,显存 10G,功耗 320W。RTX 3070 则有 5888 个 CUDA。
相比之下,2080Ti 的 CUDA 核心是 4300 个,所以黄仁勋在发布中说 3070 性能超过 2080Ti,看来是没什么问题的。
单从核心数量上来看,这巨大的提升让最近买了 RTX 20 系列的人有了四九年入国军的感觉。不过需要注意的是,英伟达官方标记的数据是等效核心,与之前的物理核心不同。
Nvidia GeForce 性能对比,来源:ANANDTECH
这些显卡均支持 PCIe 4.0,还有 HDMI 2.1 和 DP 1.4a 等接口,并内含第二代光追核心 RTX Core、第三代张量核心 Tensor Core。
可以看到,RTX 3090 和 RTX 3080 显存容量差距较大,这或许是在为稍后推出的 RTX 3080 Super 留位置。另外,3090 的 24G 内存和 1399 美元的价格或许能够让很多对深度学习有需求的用户省下买泰坦的预算。如果你真的想要「Titan Ampere」,预计它会是一个显存 40G,售价 3000 美元的夸张显卡。
另外需要注意的是 GPU 代工厂,今天发布的 GeForce RTX 30 系列均采用了三星的 8 纳米制程「英伟达定制工艺」,选择三星而不是台积电,不知是出于什么样的考虑。
安培架构,AI 算力再上台阶
这些强大的 GPU,采用的都是今年 5 月刚刚推出的最新 7 纳米制程架构安培(Ampere),其首先被 Tesla A100 所采用。
在当时的 GTC 大会上,英伟达推出的安培架构计算卡 A100,成为了当时人类制造出的最大 7 纳米制程芯片。这块 AI 计算卡采用先进的台积电(TSMC)7 纳米工艺,拥有 540 亿个晶体管,它还是一块 3D 堆叠芯片,面积高达 826mm^2,最大功率达到了 400W。
除了制程提高,安培架构还有一些针对 AI 计算特有的机制,其中的三代 Tensor Core 会对稀疏张量运算进行特别加速:执行速度提高一倍,也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系统会自动将数据转为 TF32 格式加速运算,现在你无需修改任何代码量化了,直接自动训练即可。
针对稀疏矩阵的加速可以让安培架构 GPU 处理 AI 任务的效率提高一倍。
最终在跑 AI 模型时,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的训练上性能提升 6 倍,BERT 推断时性能提升 7 倍。
不过由于消费级和专业级芯片的结构不尽相同,我们不能把 Ampere A100 芯片的 AI 训练性能简单地直接拿来作为参考,还需要等待官方公布,以及最终实测的数据。
黄仁勋表示,GeForce RTX 30 系列显卡具备三项基础处理技术:30TFLOPS 算力的可编程着色器(Turing 架构是 11),双倍吞吐量,用于光追的 RT Core(58 RT TFLOPS,Turing 架构是 34),以及可自动忽略次要 DNN 权重的 Tensor Core(238Tensor TFLOPS,旧版为 89)。
三个方面,性能相比前一代都是翻倍。
AI 是目前科技领域最强大的技术力量,可以让计算机从大量数据中学习知识,甚至据此编写出软件。在图形领域,我们仍然可以通过 Tensor Core 的力量增强视频的画面。「我们现在可以只计算低分辨率图像的光追,再用 Tensor Core 通过 DLSS 将其还原成高分辨率,同时还能提高画面帧率。」黄仁勋说道。
英伟达通过自己的超级计算机训练了多种不同场景的图像,并将训练好的模型以显卡驱动的程序安置在你的电脑中。在游戏运行时,AI 会通过上一帧高清图对现有低分辨图进行渲染,最终达到超过原画的效果。据介绍,在最新版的 DLSS 2.0 上,Tensor Core 可以把 RTX 的性能提升一倍——这也意味着游戏的有效帧数可以变成两倍,现在光线追踪、高分辨率和高帧率可以同时拥有了。
用它来打游戏会是什么样?
除了新的图像增强工具 DLSS 2.0,随着安培架构的 GeForce 显卡,英伟达推出了 Nvidia Reflex、Nvidia Broadcast、Machinima 等工具,基于 RTX 的强大算力,现在人们不仅可以获得更好的游戏画面,也可以在游戏时获得更低的延迟、直播时屏蔽环境噪音,替换背景,实现绿幕效果、甚至直接用游戏里的元素创作出你想要的电影。
如今,大型 3D 游戏的容量已经超过了 200G,大量图像材质需要从被解压缩,进而交由 GPU 处理。在使用了 PCIe-4 和固态硬盘之后,CPU 解压缩成为了这个流程的瓶颈。现在,通过新技术 RTX IO,GPU 可以无损进行解压缩工作了。
自 Turner Whitted 等人首次发表光线追踪的论文以来,已过去了 40 年,如今这项技术从计算及图形的圣杯变成了人人都可以体验的实时游戏画面。黄仁勋还宣布《堡垒之夜》已经支持英伟达的光线追踪技术。「现在,全球排名前二的最受欢迎游戏,《我的世界》和《堡垒之夜》,都已支持光追。」黄仁勋说道。
为了让新一代 GeForce 显卡能够充分发挥作用,英伟达还发布了一款夸张的 360Hz 刷新率 G-Sync 屏幕,预计今年秋天就会出现在宏基、华硕、微星、外星人等品牌的电脑配置单上。
几个月前,黄仁勋在 GTC 上展示了 Turing 进行数百光源的光追实时渲染的 Marbles 撞球游戏视频,使用 Turing RTX Quadro 8000,达到 720p 25 帧。而使用安培架构的 GPU,现在我们可以实现 1440p、30 帧,并增加更多的特效,这是超过四倍的性能。
还想要更好的效果?你也可以通过 NVLink 把两张 GeForce RTX 3090 进行 SLI,以达到性能的大幅度扩展。不过看看一张卡的价格,这种事估计只有玩微软模拟飞行的时候才会有人干吧。
最后,对于 RTX 3090 在常规任务中的性能,目前已有了一些传闻,据称基于 GA102 的未定型显卡在未优化完整的游戏中以 4K 分辨率跑起来比 RTX 2080 Ti 的帧数高 40%,而优化过的游戏中性能更是要高出 50%,在针对安培架构进行优化最佳情况下,性能提升可高达 70%。想要在 4K 分辨率下看高刷新率画面,现在不是问题了。
采用英伟达大量最新技术的游戏《赛博朋克 2077》,预定在今年 11 月 19 日与人们见面。
在星际迷航中,剧中人会使用 Holodeck 创造虚拟现实环境进行任务,现在这种科幻的梦想很大程度上成为了现实。「未来,GeForce 就是你的 Holodeck,你的光速飞船,你的时间机器。」黄仁勋说道。
正如人们所预料,RTX 3090 的性能绝对强劲。现在,问题来到了我们这边,1 万元一块的泰坦级显卡,你会不会买?