收购Arm,推出80G超级A100:2020年,英伟达还有一招没出

简介: 400 亿美元收购 Arm,把业界顶级显卡性能一次提升 20 倍,市值超越英特尔成为第一大芯片公司……2020 年的科技界大新闻,英伟达一家就占了好几条。


说起英伟达,很多人都知道这家公司最新推出的消费级显卡 RTX 3080,以及它一卡难求的火爆景象。实际上,由于 GPU 在高性能计算、AI 等领域的大规模应用,英伟达出品已经成为了很多工作中不可或缺的一部分。


英伟达快速发展的技术,为人们带来了近乎无穷的算力,也让其自身业绩节节攀升。在过去 20 个季度中,英伟达已有 18 个季度的财务业绩超过了华尔街分析师们的预期。当然不断的成功并没有让英伟达放缓推出新卡的步伐。


微信图片_20211204203139.gif

今年英伟达发布的新显卡,几乎都是由黄仁勋自家烤炉中「出炉」的。


就在自家消费级 GPU RTX 3080 显卡抢占「最强 AI 计算芯片」的名头后不久,11 月份英伟达又为旗下的最强 AI 训练计算卡 A100 系列进行了升级。


回想今年五月份,英伟达在 GTC 大会上发布了 7nm 安培架构(NVIDIA Ampere)的 A100 GPU 产品,其中 40GB,带宽为 1.6TB/s 的 HBM2 显存令人印象深刻。11 月 16 日,竞争对手 AMD 带来了 7nm CDNA 架构的 MI100 加速卡,英伟达继续出招,推出了 A100 80GB GPU,显存翻倍,性能大幅提升。


微信图片_20211204203144.jpgimage.gif


时隔仅半年,英伟达推出的新卡有哪些具体的提升?首先在芯片的计算性能上,A100 80GB 的数据没有变化,依然采用了基于 7nm 工艺的安培架构,集成 542 亿晶体管、6912 个 CUDA 核心、加速频率 1.41GHz,FP32 性能 19.5TFLOPS,FP64 性能 9.7TFLOPS,INT8 性能 624TOPS,额定功耗 400W。


A100 搭载了英伟达特有的第三代 Tensor Core 人工智能计算单元,对稀疏张量运算进行了特别加速,执行速度提高了一倍,也支持 FP64、 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速。通过全新的 TF32,A100 将上一代 Volta 架构的 AI 吞吐量提高多达 20 倍。


新款 A100 计算卡的主要升级之处在于 HBM2 显存:从之前的 40GB 直接翻倍达到 80GB,显存类型升级为更先进的 HBM2e。同时显存频率从之前的 2.4Gbps 提升到 3.2Gbps,带宽也从 1.6TB/s 提升到史无前例的 2TB/s。通过配合英伟达多实例 GPU(MIG)技术,每个实例在训练时获得的内存可以增加一倍,单卡最多可提供七个 MIG(每个 10 GB)。


微信图片_20211204203149.jpg

英伟达最新几代 AI 训练卡性能的对比,图片来自 AnandTech。


在 A100 上应用的技术还包括第三代 NVLink 和 NVSwitch 功能,相比上代,它们提供了两倍的 GPU 到 GPU 带宽,并将数据密集型工作负载到 GPU 的数据传输加速到每秒 600 GB。


通过硬件与软件的优化提升,A100 80G 可以在大型仿真系统中提供相比六个月前刚刚发布的 A100「标准版」1.8 倍性能的提升。在材料模拟软件 Quantum Espresso 上,单节点 A100 80GB 也实现了近 2 倍的吞吐量提升。


这使得数据可以快速传输到全球最快的数据中心 GPU A100 上,使研究人员能够更快地加速其应用,处理最大规模的模型和数据集,如类似 GPT-3 这样的大规模预训练模型,很大程度上避免了对于数据或模型并行架构的需求。


在深度学习等很多领域中,研究人员对于 AI 算力的需求几乎是无止境的,据英伟达在今年 5 月的统计,自 2017 年底发布 V100 之后,训练业界机器学习模型的算力需求增长了 3000 倍。在五月底 Open AI 的 GPT-3 推出以后,这一数字再次被抬高了不少。


微信图片_20211204203156.jpgimage.gif


机器学习先驱 Richard S. Sutton 在《苦涩的教训》中曾表示,70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。


这种思想获得了很多人的赞同,也引来了争议。虽然一直有人认为,找到与人类思考方式类似的因果推理范式才能真正地通往强人工智能,但基于深度学习的方法在近年来已掌握了国际象棋、围棋,实现了不少人类专家也难以企及的能力。除了前沿探索之外,更多的深度学习应用正在路上。


与此同时,英伟达还发布了「全球唯一」的千万亿次级工作组服务器 NVIDIA DGX Station A100,其配备四块新款 A100 GPU,具有高达 320GB 的 GPU 内存,输出算力 2.5 petaflops。在执行 BERT 等大模型时,新一代设备的效率相比过去提高了三倍。


虽然有超算级别的能力,但 DGX Station A100 无需配备数据中心级电源或散热系统,而且年底即开始供货。搭载 A100 80GB 的第三方成套系统则预计会在 2021 年上半年出货。


微信图片_20211204203202.png


通过新计算卡和与之配合的架构,英伟达可以向更广泛的人群输出以往仅存在于超级计算机的 AI 算力。而说到超级计算机,英伟达也是目前业内的领先者,在 11 月全球超算大会 SC2020 公布的 TOP500 榜单数据来看,近 70%的机器(包括排在前 10 名中的 8 台)均采用了英伟达技术。


GPU 在高性能计算领域能有如今的覆盖率,显然是因为有很大需求:在 SC2020 大会上,有超算界诺贝尔奖美称的「戈登 · 贝尔奖」颁给了由 UC Berkeley、北京大学、普林斯顿大学组成的研究团队,他们的研究被认为是当今计算科学中最令人兴奋领域的重大进展。


研究团队引入基于机器学习的分子动力学方法模拟原子运动,每天能够模拟 1 亿原子超过 1 纳秒的轨迹。该研究是在美国橡树岭国家实验室的前世界第一超算 Summit 两万八千块英伟达 V100 上完成的。


微信图片_20211204203206.jpgimage.gif


戈登贝尔奖旨在表彰研究者们在高性能计算方面的成就,入围者必须证明他们提出的算法可以在世界上最强大的超级计算机上高效运行。中美获奖团队开发了一系列高度优化的代码(GPU Deep MD-Kit)并在 Summit 超算上顺利运行,在双精度下实现了 91 PFLOPS 的速度,在混合单 / 半精度下实现了 162/275 PFLOPS 的速度。


将人工智能算法引入到 HPC 领域,并将边界拓展至数据中心之外,是高性能计算领域里正在进行的一项重大变革。而在这个过程中,英伟达将会继续扮演举足轻重的角色。


今年 5 月份的 GTC 2020 大会上,黄仁勋发布了 7nm 安培架构和 A100;9 月份的 GTC 大会上,又为我们揭晓了「PC 游戏领域自 1999 年以来最大突破」——RTX 30 系列显卡。


这还没有完,在今年 12 月,GTC 大会还有一站。


12 月 15-19 日,英伟达行业盛会 GTC 中国站将在线上开幕,大会期间,所有注册参会者可通过登陆,定制个人参会日程、设置参会提醒、查看积分并兑换,换取电商购物券、拉杆箱、NVIDIA Jetson Nano 等好礼。观看主题演讲还将有机会赢得 GeForce RTX 3070 显卡!所有福利仅限注册用户!即刻扫描海报二维码,免费注册,赢取大奖!


微信图片_20211204203210.jpg


© THE END


转载请联系本公众号获得授权


投稿或寻求报道:content@jiqizhixin.com


点击「阅读原文」,了解更多GTC China详细日程。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
存储 机器学习/深度学习 人工智能
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。
302 0
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
|
存储 机器学习/深度学习 人工智能
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。
220 0
进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」
|
7月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1207 61
|
7月前
|
消息中间件 数据可视化 Kafka
docker arm架构部署kafka要点
本内容介绍了基于 Docker 的容器化解决方案,包含以下部分: 1. **Docker 容器管理**:通过 Portainer 可视化管理工具实现对主节点和代理节点的统一管理。 2. **Kafka 可视化工具**:部署 Kafka-UI 以图形化方式监控和管理 Kafka 集群,支持动态配置功能, 3. **Kafka 安装与配置**:基于 Bitnami Kafka 镜像,提供完整的 Kafka 集群配置示例,涵盖 KRaft 模式、性能调优参数及数据持久化设置,适用于高可用生产环境。 以上方案适合 ARM64 架构,为用户提供了一站式的容器化管理和消息队列解决方案。
658 10
|
8月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
10月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天 Arm 架构深入探讨
飞天技术沙龙回顾:业务创新新选择,倚天 Arm 架构深入探讨
267 1
|
11月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
1627 10
|
12月前
|
人工智能 芯片 Windows
ARM架构PC退货率与CEO策略透视
ARM架构PC退货率与CEO策略透视
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
904 7

热门文章

最新文章