收购Arm,推出80G超级A100:2020年,英伟达还有一招没出

简介: 400 亿美元收购 Arm,把业界顶级显卡性能一次提升 20 倍,市值超越英特尔成为第一大芯片公司……2020 年的科技界大新闻,英伟达一家就占了好几条。


说起英伟达,很多人都知道这家公司最新推出的消费级显卡 RTX 3080,以及它一卡难求的火爆景象。实际上,由于 GPU 在高性能计算、AI 等领域的大规模应用,英伟达出品已经成为了很多工作中不可或缺的一部分。


英伟达快速发展的技术,为人们带来了近乎无穷的算力,也让其自身业绩节节攀升。在过去 20 个季度中,英伟达已有 18 个季度的财务业绩超过了华尔街分析师们的预期。当然不断的成功并没有让英伟达放缓推出新卡的步伐。


微信图片_20211204203139.gif

今年英伟达发布的新显卡,几乎都是由黄仁勋自家烤炉中「出炉」的。


就在自家消费级 GPU RTX 3080 显卡抢占「最强 AI 计算芯片」的名头后不久,11 月份英伟达又为旗下的最强 AI 训练计算卡 A100 系列进行了升级。


回想今年五月份,英伟达在 GTC 大会上发布了 7nm 安培架构(NVIDIA Ampere)的 A100 GPU 产品,其中 40GB,带宽为 1.6TB/s 的 HBM2 显存令人印象深刻。11 月 16 日,竞争对手 AMD 带来了 7nm CDNA 架构的 MI100 加速卡,英伟达继续出招,推出了 A100 80GB GPU,显存翻倍,性能大幅提升。


微信图片_20211204203144.jpgimage.gif


时隔仅半年,英伟达推出的新卡有哪些具体的提升?首先在芯片的计算性能上,A100 80GB 的数据没有变化,依然采用了基于 7nm 工艺的安培架构,集成 542 亿晶体管、6912 个 CUDA 核心、加速频率 1.41GHz,FP32 性能 19.5TFLOPS,FP64 性能 9.7TFLOPS,INT8 性能 624TOPS,额定功耗 400W。


A100 搭载了英伟达特有的第三代 Tensor Core 人工智能计算单元,对稀疏张量运算进行了特别加速,执行速度提高了一倍,也支持 FP64、 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速。通过全新的 TF32,A100 将上一代 Volta 架构的 AI 吞吐量提高多达 20 倍。


新款 A100 计算卡的主要升级之处在于 HBM2 显存:从之前的 40GB 直接翻倍达到 80GB,显存类型升级为更先进的 HBM2e。同时显存频率从之前的 2.4Gbps 提升到 3.2Gbps,带宽也从 1.6TB/s 提升到史无前例的 2TB/s。通过配合英伟达多实例 GPU(MIG)技术,每个实例在训练时获得的内存可以增加一倍,单卡最多可提供七个 MIG(每个 10 GB)。


微信图片_20211204203149.jpg

英伟达最新几代 AI 训练卡性能的对比,图片来自 AnandTech。


在 A100 上应用的技术还包括第三代 NVLink 和 NVSwitch 功能,相比上代,它们提供了两倍的 GPU 到 GPU 带宽,并将数据密集型工作负载到 GPU 的数据传输加速到每秒 600 GB。


通过硬件与软件的优化提升,A100 80G 可以在大型仿真系统中提供相比六个月前刚刚发布的 A100「标准版」1.8 倍性能的提升。在材料模拟软件 Quantum Espresso 上,单节点 A100 80GB 也实现了近 2 倍的吞吐量提升。


这使得数据可以快速传输到全球最快的数据中心 GPU A100 上,使研究人员能够更快地加速其应用,处理最大规模的模型和数据集,如类似 GPT-3 这样的大规模预训练模型,很大程度上避免了对于数据或模型并行架构的需求。


在深度学习等很多领域中,研究人员对于 AI 算力的需求几乎是无止境的,据英伟达在今年 5 月的统计,自 2017 年底发布 V100 之后,训练业界机器学习模型的算力需求增长了 3000 倍。在五月底 Open AI 的 GPT-3 推出以后,这一数字再次被抬高了不少。


微信图片_20211204203156.jpgimage.gif


机器学习先驱 Richard S. Sutton 在《苦涩的教训》中曾表示,70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。


这种思想获得了很多人的赞同,也引来了争议。虽然一直有人认为,找到与人类思考方式类似的因果推理范式才能真正地通往强人工智能,但基于深度学习的方法在近年来已掌握了国际象棋、围棋,实现了不少人类专家也难以企及的能力。除了前沿探索之外,更多的深度学习应用正在路上。


与此同时,英伟达还发布了「全球唯一」的千万亿次级工作组服务器 NVIDIA DGX Station A100,其配备四块新款 A100 GPU,具有高达 320GB 的 GPU 内存,输出算力 2.5 petaflops。在执行 BERT 等大模型时,新一代设备的效率相比过去提高了三倍。


虽然有超算级别的能力,但 DGX Station A100 无需配备数据中心级电源或散热系统,而且年底即开始供货。搭载 A100 80GB 的第三方成套系统则预计会在 2021 年上半年出货。


微信图片_20211204203202.png


通过新计算卡和与之配合的架构,英伟达可以向更广泛的人群输出以往仅存在于超级计算机的 AI 算力。而说到超级计算机,英伟达也是目前业内的领先者,在 11 月全球超算大会 SC2020 公布的 TOP500 榜单数据来看,近 70%的机器(包括排在前 10 名中的 8 台)均采用了英伟达技术。


GPU 在高性能计算领域能有如今的覆盖率,显然是因为有很大需求:在 SC2020 大会上,有超算界诺贝尔奖美称的「戈登 · 贝尔奖」颁给了由 UC Berkeley、北京大学、普林斯顿大学组成的研究团队,他们的研究被认为是当今计算科学中最令人兴奋领域的重大进展。


研究团队引入基于机器学习的分子动力学方法模拟原子运动,每天能够模拟 1 亿原子超过 1 纳秒的轨迹。该研究是在美国橡树岭国家实验室的前世界第一超算 Summit 两万八千块英伟达 V100 上完成的。


微信图片_20211204203206.jpgimage.gif


戈登贝尔奖旨在表彰研究者们在高性能计算方面的成就,入围者必须证明他们提出的算法可以在世界上最强大的超级计算机上高效运行。中美获奖团队开发了一系列高度优化的代码(GPU Deep MD-Kit)并在 Summit 超算上顺利运行,在双精度下实现了 91 PFLOPS 的速度,在混合单 / 半精度下实现了 162/275 PFLOPS 的速度。


将人工智能算法引入到 HPC 领域,并将边界拓展至数据中心之外,是高性能计算领域里正在进行的一项重大变革。而在这个过程中,英伟达将会继续扮演举足轻重的角色。


今年 5 月份的 GTC 2020 大会上,黄仁勋发布了 7nm 安培架构和 A100;9 月份的 GTC 大会上,又为我们揭晓了「PC 游戏领域自 1999 年以来最大突破」——RTX 30 系列显卡。


这还没有完,在今年 12 月,GTC 大会还有一站。


12 月 15-19 日,英伟达行业盛会 GTC 中国站将在线上开幕,大会期间,所有注册参会者可通过登陆,定制个人参会日程、设置参会提醒、查看积分并兑换,换取电商购物券、拉杆箱、NVIDIA Jetson Nano 等好礼。观看主题演讲还将有机会赢得 GeForce RTX 3070 显卡!所有福利仅限注册用户!即刻扫描海报二维码,免费注册,赢取大奖!


微信图片_20211204203210.jpg


© THE END


转载请联系本公众号获得授权


投稿或寻求报道:content@jiqizhixin.com


点击「阅读原文」,了解更多GTC China详细日程。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
存储 机器学习/深度学习 人工智能
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。
172 0
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
|
存储 机器学习/深度学习 人工智能
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。
134 0
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
|
24天前
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
28天前
|
存储 Docker 容器
ARM架构鲲鹏主机BClinux离线安装docker步骤
下载并安装适用于ARM架构的Docker CE二进制文件,解压后移动至/usr/bin目录。创建docker组,配置systemd服务脚本(docker.service、docker.socket、containerd.service),重载systemd配置,启动并启用docker服务。编辑daemon.json配置存储驱动、镜像加速地址等,最后拉取所需镜像。
38 0
|
1月前
|
NoSQL MongoDB Docker
求助,有没有大神可以找到arm64架构下mongodb的3.6.8版本的docker镜像?
在Docker Hub受限的情况下,寻求适用于ARM架构的docker镜像资源或拉取链接,以便在x86架构上获取;内网中的机器为ARM架构,因此优先请求适合ARM的Docker镜像或Dockerfile,非常感激您的帮助。
|
3月前
|
编解码 安全 Linux
基于arm64架构国产操作系统|Linux下的RTMP|RTSP低延时直播播放器开发探究
这段内容讲述了国产操作系统背景下,大牛直播SDK针对国产操作系统与Linux平台发布的RTMP/RTSP直播播放SDK。此SDK支持arm64架构,基于X协议输出视频,采用PulseAudio和Alsa Lib处理音频,具备实时静音、快照、缓冲时间设定等功能,并支持H.265编码格式。此外,提供了示例代码展示如何实现多实例播放器的创建与管理,包括窗口布局调整、事件监听、视频分辨率变化和实时快照回调等关键功能。这一技术实现有助于提高直播服务的稳定性和响应速度,适应国产操作系统在各行业中的应用需求。
105 3
|
2月前
ARM64架构提供的Cache操作
ARM64架构提供的Cache操作
|
3月前
|
Ubuntu Windows
ARM架构安装ubuntu系统
8月更文挑战第19天
1031 0
|
6月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
阿里云、平头哥与Arm联合举办的飞天技术沙龙在上海举行,聚焦Arm Neoverse核心优势和倚天710计算实例在大数据、视频领域的应用。活动中,专家解读了倚天710的性能提升和成本效益,强调了CIPU云原生基础设施处理器的角色,以及如何通过软件优化实现资源池化和稳定性平衡。实例展示在视频编码和大数据处理上的性能提升分别达到80%和70%的性价比优化。沙龙吸引众多企业代表参与,促进技术交流与实践解决方案的探讨。
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
|
5月前
|
传感器 物联网 数据中心
探索ARM架构及其核心系列应用和优势
ARM架构因其高效、低功耗和灵活的设计,已成为现代电子设备的核心处理器选择。Cortex-A、Cortex-R和Cortex-M系列分别针对高性能计算、实时系统和低功耗嵌入式应用,满足了不同领域的需求。无论是智能手机、嵌入式控制系统,还是物联网设备,ARM架构都以其卓越的性能和灵活性在全球市场中占据了重要地位。
249 1
下一篇
无影云桌面