华为发布全球最快AI训练集群Atlas900,训练ResNet50仅需59.8秒,昇腾910加持

简介: 在 8 月华为最强 AI 芯片昇腾 910 正式发布之后,今天,华为在全联接大会上发布了全新的整体计算战略,并正式推出了基于最新 AI 芯片的服务器 Atlas 900。

华为总裁任正非在最近接受采访时曾表示,华为即将发布全世界最快的人工智能平台。在今天的全联接大会上,华为揭幕了这款 AI 训练集群 Atlas 900:它成为了目前全球计算机的巅峰,其总算力达到 256P~1024P FLOPS @FP16,相当于 50 万台 PC 的计算能力。


「特别感谢在这个关键时刻大家对于华为的支持,」华为副董事长胡厚崑在发布会上表示。「感谢大家的关心,在这里我也向大家报告一下,华为的状态确实还不错。就像今天早上上海的天气一样,秋高气爽,云淡风轻。


微信图片_20211201235549.jpg


全球训练最快的 AI 集群 Atlas900


华为今天推出的 Atlas 900 可谓目前最强的 AI 计算机集群,它由 1024 块昇腾 910 芯片组成,后者可谓目前业界单芯片算力最强,的处理器。每块昇腾 910 AI 处理器内置 32 个达芬奇 AI Core,单芯片可以提供比业界高出一倍的算力(256TFLOPS@FP16)。


微信图片_20211201235554.jpg


为了充分发挥 AI 芯片的能力,Atlas 900 AI 训练集群采用「HCCS、 PCIe 4.0、100G 以太」三类高速互联方式,实现了百 TB 级的全互联无阻塞专属参数同步网络,梯度同步时延可缩短 10~70%。


在 AI 服务器内部,昇腾 910 AI 处理器之间通过 HCCS 高速总线互联;昇腾 910 AI 处理器和 CPU 之间以最新的 PCIe 4.0(速率 16Gb/s)技术互联,其速率是业界主流采用的 PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输更加快速和高效。在集群层面,采用面向数据中心的 CloudEngine 8800 系列交换机,提供单端口 100Gbps 的交换速率,将集群内的所有 AI 服务器接入高速交换网络。


华为表示,在 AI 服务器内部,昇腾 910 AI 处理器之间通过 HCCS 高速总线互联;昇腾 910 AI 处理器和 CPU 之间则以最新的 PCIe 4.0(速率 16Gb/s)技术互联,其速率是业界主流采用的 PCIe 3.0(8.0Gb/s)技术的两倍。


微信图片_20211201235604.png


胡厚崑表示,使用 Atlas 900,人们只需 59.8 秒就可以完成典型神经网络 ResNet-50 在 ImageNet 数据集上的训练,在同等精度下比第 2 名快 15%。「这相当于在短跑赛场上头名撞线,然后喝完一瓶水才看到第二名跑到终点。」


微信图片_20211201235608.gif


Atlas900 的强大算力,可广泛应用于科学研究与商业创新,比如天文探索、气象预测、自动驾驶、石油勘探等领域。在现场,华为展示了在天文领域上的应用。在与上海天文台、SKA 合作的项目中,科学家们使用 Atlas 900 高达 256P FLOPS 的集群算力,仅需 10.02 秒即计算了 20 万颗星体的扫描,同时可以准确地对某一类星体进行定位,如果人类进行这项工作的话,需要 169 天时间。


华为表示:「在 Atlas 900 出现之后,一切计算瓶颈都会消失。」


基于 Atlas 900 的超强算力,华为云今天也发布基于昇腾的华为云 EI 集群服务,现在人们已可以注册并开始使用。


华为认为,未来计算的主流将是机器学习。「未来基于统计的计算可以帮助我们更好地解决没有固定规则定义的问题,」胡厚崑说道。「这一类计算奠定了今天人工智能突破发展的基础,在未来将会逐步成为计算的主流。我们认为,在未来的五年时间里,基于统计的计算消耗的算力有可能会占到整个社会算力消耗的 80% 以上。」


2 万亿计算产业新蓝海


华为认为,未来的云计算领域将会出现新的巨大市场。据 Gardner 预测,2023 年全球计算产业总空间将会达到 2 万亿美元,其中包括企业 IT 的软件、硬件、云服务等。


如此发展空间正在推动华为不断加码投入。去年,华为提出了全场景战略。在今天的 HC 大会上,华为进一步介绍了自己的整体计算战略,其将从四个方面来布局:


  • 架构创新。投资基础研究,打造出了达芬奇架构,重点解决全场景智能的架构问题。
  • 投资全场景处理器。包括面向通用计算的鲲鹏系列,面向 AI 的昇腾系列,面向智能终端的麒麟系列,以及面向智慧屏的鸿鹄系列,将来还有一系列处理器,面向更多的场景。
  • 商业策略。华为处理器不直接对外销售,以云服务和部件为主面向客户,优先支持合作伙伴发展整机。
  • 构建开放生态。重点推进沃土计划 2.0,使能全球合作伙伴发展应用及解决方案。


「我们认为,未来的十年会是整个计算产业新黄金十年,计算产业会出现巨大的新蓝海,」胡厚崑表示。「五年之内,全球将会出现每年高达两万亿美元的市场。因此华为将向计算产业进行大量投入。」


微信图片_20211201235611.jpg


2015 年,华为首次发布了沃土计划。在过去的四年中,华为已经发展了 130 多万开发者。在今天的发布会上,华为表示沃土计划在今年将继续投入 15 亿美元,使开发者的规模扩大到 500 万人。


华为不仅自研了鲲鹏、昇腾系列芯片,更围绕硬件打造了完整了配套体系。在今年初发布会上,华为同步推出三款搭载鲲鹏芯片的「泰山」系列服务器,分别定位均衡、存储以及高密度应用领域,表明了华为对于进军云服务市场的决心。在今天的发布会上,华为表示未来会进一步发布主板、服务器、操作系统、编译器和数据库等产品。


此外,为保证鲲鹏芯片在市场上实际落地,华为为鲲鹏打造了鲲鹏软件栈,并提供配套的指导服务,覆盖操作系统、中间件、web、大数据、数据库等业务类软件,管理和监控、应用工具等运维类软件,以及开发工具、编译工具等开发类软件。


微信图片_20211201235614.jpg


目前,华为已具备从服务器、中间件、基础云服务到企业智能云的全栈式产品序列。在短短一年中,华为几乎完成了在计算产业的全方位布局。


在应用上,华为与合作伙伴的鲲鹏产业生态基地目前已落地北京、上海、重庆、深圳、成都等城市。在未来,基于鲲鹏处理器的系列产品、解决方案和服务,将投向全球市场,在其他国家和地区逐步上市。


鲲鹏系列芯片在 ARM 架构服务器上的探索或许可以改变目前 x86 一家独大的情况——作为和移动设备类似的计算架构,ARM 服务器可向云手机、异构计算等任务和应用提供更好支持,对很多面向 C 端用户的业务,以及未来由 5G 衍生出的新类型业务提供了支撑。



9 月 26 日,DataFun Live 第 9 期邀请到美图高级算法专家陈文强,分享主题为「深度学习在美图个性化推荐的应用实践」。识别二维码或点击阅读原文,立即报名观看直播。


微信图片_20211201235618.jpg

相关文章
|
1月前
|
机器学习/深度学习 存储 人工智能
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
|
4天前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
115 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
2天前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
62 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
18天前
|
人工智能 自然语言处理 计算机视觉
华为鸿蒙自己家的“AI”编辑器插件用起来到底怎么样?
编辑器AI插件如Codegeex、通义灵码等已问世,但通用性较强而不专精。华为推出的CodeGenie专为鸿蒙开发设计,集成在DevEco 5.0.0以上版本中,提供代码补全、生成等功能,尤其擅长处理鸿蒙相关问题,极大降低了鸿蒙开发的门槛。安装后需重启,支持自然语言生成代码,提升了开发效率。
39 13
|
18天前
|
机器学习/深度学习 数据采集 人工智能
昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统,将中文语音信号转换成文字,并利用开源数据集对模型效果加以验证。
42 12
|
21天前
|
存储 机器学习/深度学习 人工智能
昇腾AI行业案例(六):基于 PraNet 的医疗影像分割
欢迎学习《基于 PraNet 的医疗影像分割》实验。在本实验中,你将深入了解如何运用计算机视觉(CV)领域的 AI 模型,搭建一个高效精准的医疗影像分割系统,专注于息肉分割任务,并利用开源数据集对模型效果加以验证。
28 1
|
23天前
|
机器学习/深度学习 人工智能 算法
昇腾AI行业案例(一):基于AI图像处理的疲劳驾驶检测
在本实验中,您将学习如何使用利用CV(Computer Vision)领域的AI模型来构建一个端到端的疲劳驾驶检测系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
59 3
|
21天前
|
存储 人工智能 数据可视化
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
欢迎学习《基于 DANet 和 Deeplabv3 模型的遥感图像分割》实验。在本实验中,你将深入了解如何运用计算机视觉(CV)领域的 AI 模型,搭建一个高效精准的遥感地图区域分割系统,并利用开源数据集和昇腾 AI 芯片对模型效果加以验证。
28 0
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
|
1月前
|
人工智能 物联网
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
75 10
|
2月前
|
人工智能 智能硬件
SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力
SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。
69 0
SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

热门文章

最新文章