华为昇腾,AI推理性能超越对手一倍:软件挖掘处理器全部潜力

简介: 华为的 Atlas,一次就让业界最佳水平翻了一倍。

「硬件是 AI 的基础,但软件是核心。目前华为昇腾有 70% 研发人员专注于软件的开发,希望能把昇腾处理器的潜力全部发挥出来。」华为昇腾计算业务总裁许映童说道。

在本周举行的 HAI 2020 新品发布会上,华为发布了迄今为止业界最完整的 AI 全栈软件平台,覆盖从基础软件到应用能力的所有方面,在推出业内最强 AI 处理器「昇腾系列之后,软件成为了华为昇腾技术发展的新方向。

微信图片_20211204104626.jpg

华为昇腾计算业务总裁许映童在发布会上。

这是华为首次披露昇腾 AI 全栈软件平台的所有能力。

价格更低,性能翻倍

后摩尔定律时代,人们要想获得算力提升,很大程度上需要仰赖计算堆栈的「顶层」,即软件、算法和硬件架构,这将成为一个新的历史趋势。前不久,刊登在 Science 上的一篇文章《There’s plenty of room at the Top: What will drive computer performance after Moore’s law?》引起了人们的广泛讨论:研究人员指出,在软件层面上,我们还能找到大幅度提升 AI 计算性能的方法。

在 HAI 2020 大会上,华为展示了 Atlas300I 单卡支持 80 路 1080P 智能视频分析的能力,这个数字是目前竞争对手 Tesla T4 的两倍。在这背后,既有硬件架构的设计,也有强大软件的功劳。

微信图片_20211204104630.pngimage.gif


截止 2018 年,国内的摄像头的数量就已经超过了 2 亿个,摄像头的数量越来越多,视频数量暴增,然而大部分视频内容是无效的,想要剔除大部分无效视频数据,需要人工智能技术对视频进行智能分析。对于技术供应者和用户来说,智能视频分析技术需要大规模应用需要解决算法精度的问题,并不断降低应用成本。

随着近年来深度学习等技术的发展,AI 算法识别的精度已不成问题,但越来越多的数据、不断倍增的模型算力需求和缓慢的芯片制程提升之间存在不小的矛盾。

华为的 Atlas 300I 单卡视频分析能力,可以为公安、交警等部门,以及不少企业用户在应用场景中带来巨大的便利。

一张推理卡接管 80 路高清视频,这是怎么做到的?从视频解码到系统优化,华为在任务处理的每个环节上都做了极致的优化。

首先,在进行人脸识别、视频结构化、动作识别等智能视频分析之前,我们需要将视频流解码为图片流,随后才能输出给深度学习算法。每块昇腾 310 芯片中都搭载了 DVPP 硬件单元,至少可支持 16 路 1080P@30fps 的视频解码需求,对于 25FPS 的视频流,则可以支持超过 20 路——在每张 Atlas 300I 卡上,有 4 块这样的芯片。

微信图片_20211204104634.jpg

Ascend(昇腾)310 芯片的逻辑结构图。

在视频解码之后,我们还希望在计算卡上进行数据的临时存储。在这里,智能视频分析路数越多,需要缓存的目标图像数量就越大,存储空间占用量也就越大。在 Atlas 310I 计算卡上,华为塞进了共计 32GB 的 DDR 存储空间。

另一方面,由于异构计算架构 CANN 3.0 对视频解码流程和底层驱动进行了优化,每路 1080P 视频的解码存储空间占用量可以小于 90MB。

在硬件部署之后,设备的算力峰值是固定的,进一步提升算法性能的任务就落在了软件优化上。华为的工程师希望从算子性能和神经网络结构两方面提升算力效率。昇腾系列处理的离线模型转换工具 ATC 集成了大量深度优化后的算子和算子融合规则,在离线算子转化过程中会对计算图进行优化和融合,从而提升硬件资源占用率,提升网络性能。

从之前的各种实验结果看,昇腾处理适合于 YOLO V3、Inception V3、ResNet 系列神经网络的加速,因此在智能视频分析任务(如动态人脸识别)中,我们可以选择类 YOLO V3 架构(如 YOLO V3-Tiny)的算法模型作为目标检测算法,Inception V3、ResNet 系列算法作为分类、特征提取算法或其他网络模型的主网络,可以极大的提升处理性能,充分发挥算力优势。

在以上四个优化步骤之后,华为还有多线程时间并行、合理多 Batch 推理、异构资源优化等方式进一步对整个流程的各部分进行优化,充分利用异构计算资源,提升了系统的线性程度,提高了吞吐量。

使用昇腾芯片进行智能视频分析,大幅度降低了视频分析的单路硬件成本,为 AI 智能视频分析技术的大规模推广奠定了基础。

极简易用的昇腾 AI 全栈软件平台

Atlas300I 业内最佳性能的成绩,是华为昇腾软件强大的体现。

不仅效率极高,而且简单易用,华为在 HAI 大会上新发布的产品包括异构计算架构 CANN 3.0、全场景 AI 计算框架 MindSpore、全流程开发工具链 MindStudio 2.0、昇腾应用使能 MindX 等。提供的能力覆盖从算子、模型开发到应用开发等所有方面:简而言之,就是可以用一套工具搞定所有任务。

「把简单留给别人,把复杂留给自己。华为昇腾 AI 全栈软件平台可以最大程度发挥硬件性能,降低 AI 应用开发的门槛。」许映童在发布会上表示。

image.gif微信图片_20211204104638.jpg


此前,想把最先进的 AI 技术应用到实践中去,我们面临着不少挑战。「对于行业用户来说,选择哪些 AI 模型是一个难以抉择的问题。我们看到很多客户还在使用三四年前提出的,较为落后的模型,他们的技术升级速度较慢,技术难倒英雄汉。」许映童说道。

AI 算法到产品化应用有很远,从模型获取,数据准备到最终的适配开发,初创企业没有时间和精力完整走完所有历程。即使对于一些大公司来说,人工智能的人员专业性需求高,同样影响了 AI 技术在产业落地。

这些问题,华为认为都不应该由开发者来解决,新发布的 MindX 和 CANN 3.0,就是为了让 AI 直接可用而生的。

「汽车司机关心的是如何把人和货物准确送到目的地,而不会去研究汽油如何炼化,或发动机如何工作,」华为昇腾计算业务 CTO 周斌博士说道。「我相信大量行业应用的 AI 开发者更需要 AI 能力的支持,而不是研究原理。这就是我们推出 MindX 的初衷:把复杂的工作交给 MindX,你只需关注如何开发应用,如何把 AI 能力集成进去。」

MindX 1.0 带来了「2+1+X」模式,其中的 2 是指两个平台 MindX DL(Atlas 深度学习平台)和 MindX Edge(Atlas 智能边缘平台),分别面向云端和边缘侧;1 指优选模型库 Model Zoo,而 X 则是使能各行业的 SDK 工具,先期开放的包括视觉SDK mxVision 和制造 SDK mxManufacture。

微信图片_20211204104643.jpg


另一个重要是软件系统是 CANN 3.0 异构计算架构。自 2018 年随华为第一代 AI 芯片发布起,CANN 已经走过两个大版本的更新,8 月 10 日发布的 CANN 3.0 核心理念在于统一端边云和架构,自动部署,支持多种计算架构,同时支持后向兼容和演进。CANN 3.0 不是简单地软件或平台,它是一个完整的开发体系,其中包含编程语言 TBE,编译及调试工具,还有编程模型。

正是得益于 CANN 3.0 的架构优化,华为实现了一块 Atlas 300I 推理卡实时处理 80 路视频的能力,此前业内最佳的水平是 40 路。华为表示,在实验室里,这个数字还可以更高。

微信图片_20211204104646.jpg


有关人们是如何把 AI 技术应用到各个行业的,华为对开发者做了一个简单的画像:最顶尖的开发者希望进行 AI 算子和神经网络开发,人数只占到 1%——他们需要用到 CANN 3.0 和 Mind Studio 的解决方案。

第二类是占比 10% 的 AI 应用开发者,他们需要 AI 的能力来辅助各类研究。这既需要 AI 基础知识,也需要相关专业领域的知识,他们需要的是开源 AI 框架 MindSpore——在大多数时间内,开发者们无需了解 AI 算法的具体实现。

「第三类开发者,则是把 AI 技术当作一种服务的 90% 客户,他们无需理解应用背后的是 YOLO v3,ResNet50 还是其他什么算法。使用华为全新的 MindX 1.0,可以全面加速这类工作的开发速度。」许映童表示。

发力软件的华为

在以往华为的发布会上,最吸引眼球的往往是硬件和芯片。这次的 HAI 大会则不太一样,华为花费大量篇幅探讨软件的重要性。正如研究人员所说,除了发展新形态的 AI 硬件之外,软硬结合才能发挥 AI 的澎湃算力。而在这一方面,华为也证明了自己能做到最好。

华为的全场景 AI 技术已在很多客户的业务中部署,当然首先就是华为自己。在松山湖园区,基于 Atlas 的智能制造方案已经在计算产品的生产线上实现了大规模应用——AI 技术贯穿了华为制造的每个环节,就连 Atlas 板卡也是使用 Atlas 技术制造的。人工智能在完成标签缺陷检测、螺钉缺失等任务上已可以实现「秒级检测」,将质检准确率由之前的传统机器视觉质检的 90% 提升至 99.9%,质检人员的工作效率提升了 3 倍。

华为已在自家工厂里实现 AI 的工位级、线体级、车间级应用,覆盖了超过 80 个产线,面向云计算、5G 通信、终端等产品。而实现如此大规模的 AI 应用,除了打造软件工具之外,华为只投入了三名开发人员。

「在过去一年里,华为昇腾的生态布局初见成效。目前在国内已有 60 所高校开设了昇腾课程,预计到今年年底,这个数字会增长到 100 个以上,昇腾的开发者数量已达到 4 万多人。这些发展只是小小的第一步,当前的 AI 技术正处在爆发性增长的前夜。」许映童说道。

微信图片_20211204104651.jpg

在 HAI 2020 大会上,华为也为即将推出的昇腾处理器做出了一点预告:搭载新一代芯片的华为 AI 训练卡,其性能超过了英伟达 A100。

做好软硬协同硬核能力,保持开源开放,吸引更多合作伙伴,华为正希望通过领先技术让昇腾领跑产业 AI 的未来。

相关文章
|
19天前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
310 73
|
2天前
|
人工智能 Java 编译器
.NET 9 发布 性能提升、AI 支持与全方位改进
【11月更文挑战第5天】.NET 9 引入了多项改进,包括性能提升、AI 支持和全方位功能优化。性能方面,编译器增强、服务器 GC 优化、矢量化和硬件支持等提升了执行效率。AI 方面,新增学习材料、合作伙伴生态、原生支持和生成式 AI 集成。此外,.NET Aspire 组件升级、编程语言新功能和开发工具更新进一步提升了开发体验。
|
6天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
20 6
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
16 3
|
13天前
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。
|
22天前
|
人工智能 供应链 搜索推荐
生成式 AI 与向量搜索如何扩大零售运营:巨大潜力尚待挖掘
唯有打破领域壁垒,让数据在整个系统中流转 方可实现 AI 驱动的自动化增长
|
7天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
2月前
|
人工智能 自然语言处理 运维
钉钉x昇腾:用AI一体机撬动企业数字资产智能化
大模型在过去两年迅速崛起,正加速应用于各行各业。尤其在办公领域,其主要模态——文字和图片,成为了数字化办公的基础内容,催生了公文写作、表格生成、文本翻译等多种应用场景,显著提升了工作效率。然而,AI引入办公场景也带来了数据安全与成本等问题。为此,钉钉与昇腾联合推出的“钉钉专属AI一体机解决方案”,通过本地化部署解决了数据安全、成本高昂及落地难等痛点,实现了从硬件到软件的深度协同优化,为企业提供了开箱即用的AI服务,推动了办公场景的智能化升级。
76 11
|
22天前
|
人工智能 NoSQL 机器人
MongoDB Atlas与YoMio.AI近乎完美适配:推理更快速、查询更灵活、场景更丰富
随着MongoDB的新发布和革新,YoMio.AI的“闪电式发展”值得期待。

热门文章

最新文章

下一篇
无影云桌面