超越传统CPU?英特尔新一代AI芯片明年面世

简介: 昨天,英特尔首届AI开发者大会发布了一系列机器学习软件工具,并宣布包括其首款商用神经网络处理器产品将于2019年推出。

昨天,英特尔在旧金山举办第一届AI开发者大会(AI Dev Con),英特尔人工智能负责人Naveen Rao做了开场演讲。

Rao此前是Nervana的CEO和联合创始人,该公司于2016年被英特尔收购。

be30a9eaa552929aea9f25ca4d479025014cfd38

Naveen Rao

在会上,Rao发布了一系列机器学习软件工具,并宣布英特尔新一代产品,其中包括其首款商用NNP产品NNP-L1000,将于2019年推出。

以下从软件和硬件两个方面介绍AI Dev Con的重点。

MKL-DNN是用于深层神经网络的数学内核库。它是神经网络中常见组件的数学程序列表,包括矩阵乘数、批处理规范、归一化和卷积。该库针对在英特尔CPU上部署模型进行了优化。

fa5c0871f90183a5b029446ab9270b01c6cfd449

nGraph开发者选择不同的AI框架,它们都有各自的优点和缺点。为了使芯片具有灵活性,后端编译器必须能够有效地适应所有的芯片。

16f518a37c57a33a0081bbb83db5dad70e2e2655

nGraph是一个编译器,它可以在英特尔的芯片上运行。开发人员可能想要在英特尔的Xeons处理器上训练他们的模型,然后使用英特尔的神经网络处理器(NNP)进行推理。

BigDL是Apache Spark的另一个库,它的目标是通过分布式学习在深度学习中处理更大的工作负载。应用程序可以用Scala或Python编写,并在Spark集群上执行。

OpenVINOA软件工具包用于处理“边缘”(即摄像头或移动电话)视频的模型。开发人员可以实时地做面部识别的图像分类。它预计将在今年晚些时候开放,但现在可以下载了。

再来看硬件部分。

英特尔在这方面比较沉默,没有透露更多的细节。

“几年前Xeons不适合AI,但现在真的已经改变了。”Rao强调,增加的内存和计算意味着自Haswell芯片以来性能提高了100倍,并且推理的性能提高了近200倍。

“你可能听说过GPU比CPU快100倍。这是错误的。”他补充说,“今天大多数推理都是在Xeons上运行的。”

ffb2c961ffb6a352cf0b44ab43e49271c6aa6dca

Rao没有提到Nvidia,他解释说GPU在深度学习方面起了个好头,但受限于严重的内存限制。 Xeon拥有更多的内存,可以扩展到批量大的内存,因此它更适合推理。

在现场,ZIVA CEO James Jacobs还介绍了如何将Xeons用于3D图像渲染。

bdefc95d5fb6721374ff0bcb0d6bfdc7a0f421c6

左边的狮子是没有使用AI,右边的狮子使用了AI,效果很棒。

他也简要地谈到了FPGA加速的问题,并表示英特尔正在研发一种“离散加速器”(discrete accelerator)进行推理,但没有透露更多细节。

同时,还介绍了Intel Movidius的神经计算棒。它是一个U盘,可以运行使用TensorFlow和Caffe编写的模型,耗电量大约一瓦。去年,英特尔公司决定终止其可穿戴设备,如智能手表和健身腕带。

fc7afcbade1a7c463fef9d008fd86d359ffca0b0

现场还展示了一段用计算棒来进行AI作曲的DEMO,人类演奏者演奏一段曲子,AI能够在这段曲子的基础上进行创作。

fad7fd471a293dd832f6b5319fd0104f8fc795d6

英特尔去年宣布神经网络处理器(NNP)芯片。虽然没有发布任何基准测试结果,但英特尔表示将会有可供选择的客户。

Rao也没有透露多少细节。不过,大家所知道的是,它包含12个基于其“Lake Crest”架构的内核,总共拥有32GB内存,在未公开的精度下性能达到40 TFLOPS,理论上的带宽不足800纳秒,在低延迟的互连上,每秒2.4兆的带宽。

最后介绍了NNP L1000,Rao对它的介绍更少,这将是第一个商业NNP模型,并将在2019年推出。它将基于新的Spring Crest体系结构,预计将比之前的Lake Crest模型快3到4倍。

17a7e4cc6d516d0375463b7e4803e3e066963c83

开发者大会的当天,英特尔官网发出一篇Rao的署名文章,对英特尔Nervana神经网络处理器(NNP)进行了介绍。

Nervana NNP有一个明确的设计目标,可实现高计算利用率和支持多芯片互连的真模型并行。

行业里讨论了很多关于最大的理论性能,然而,实际情况是,除非体系结构有能够支持这些计算元素的高利用率的储存器子系统,否则大部分计算都是没有意义的。此外,行业发布的大部分性能数据使用的是大型矩阵,这些矩阵通常在现实世界的神经网络中并不常见。

英特尔专注于为神经网络创建一个平衡的架构,它还包括低延迟的高芯片到芯片带宽。NNP系列的初始性能基准在利用率和互连方面显示出强劲的竞争力。具体包括:

使用A(1536, 2048)和B(2048, 1536)矩阵进行矩阵乘法运算的一般矩阵,在单个芯片上实现了96.4个百分点的计算利用率。这代表了在单个芯片上的实际(非理论)性能的38TOP/s。支持模型并行训练的多芯片分布式GEMM操作实现了A(6144,2048)和B(2048,1536)矩阵大小的接近线性缩放和96.2%的缩放效率,使得多个NNP能够连接在一起,并将我们从其他架构的内存限制中释放出来。

我们测量了89.4 %的单方向芯片到芯片的效率,理论上的带宽小于790ns(纳秒)的延迟,并且将其应用于2.4Tb/s的高带宽、低延迟互连。

c002d70c70f64406d8635de20015113a41ecd82f

所有这些都在单芯片总功率范围内低于210瓦的情况下进行,这只是英特尔Nervana NNP(Lake Crest)原型。

英特尔将在2019年提供第一个商用NNP产品——英特尔Nervana NNP-L1000(Spring Crest)。

预计英特尔Nervana NNP-L1000的性能将达到第一代Lake Crest产品的3-4倍。

0dc4c6d7c9c6e5b6d6fd828d927ad72dd2abc9e8

在英特尔Nervana NNP-L1000中,还将支持bfloat16,这是一种业界广泛用于神经网络的数字格式。

随着时间的推移,英特尔将在其AI产品线上扩展bfloat16支持,包括英特尔Xeons处理器和英特尔FPGA。


原文发布时间为:2018-05-24

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:超越传统CPU?英特尔新一代AI芯片明年面世

相关文章
|
1月前
|
存储 人工智能 vr&ar
转载:【AI系统】CPU 基础
CPU,即中央处理器,是计算机的核心部件,负责执行指令和控制所有组件。本文从CPU的发展史入手,介绍了从ENIAC到现代CPU的演变,重点讲述了冯·诺依曼架构的形成及其对CPU设计的影响。文章还详细解析了CPU的基本构成,包括算术逻辑单元(ALU)、存储单元(MU)和控制单元(CU),以及它们如何协同工作完成指令的取指、解码、执行和写回过程。此外,文章探讨了CPU的局限性及并行处理架构的引入。
转载:【AI系统】CPU 基础
|
1月前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
4天前
|
机器学习/深度学习 人工智能 缓存
基于英特尔平台加速 AI 应用及 LLM 推理性能介绍|龙蜥大讲堂第115期
本文摘自龙蜥大讲堂英特尔 AI 软件工程师黄文欢的分享,主要包括以下三个方面的内容: 1. 第五代英特尔至强处理器 2. LLM 推理加速框架 xFast Transformer 及其优化策略 3. 性能数据及 Demo 展示
|
1月前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
100 12
|
1月前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
2月前
|
人工智能 缓存 并行计算
【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,解释了算力计算方法、数据加载与计算的平衡点,以及如何通过算力敏感度分析优化性能瓶颈。同时,文章还讨论了服务器、GPU和超级计算机等不同计算平台的性能发展趋势,强调了优化数据传输速率和加载策略的重要性。
71 4
|
2月前
|
存储 人工智能 编译器
【AI系统】CPU 指令集架构
本文介绍了指令集架构(ISA)的基本概念,探讨了CISC与RISC两种主要的指令集架构设计思路,分析了它们的优缺点及应用场景。文章还简述了ISA的历史发展,包括x86、ARM、MIPS、Alpha和RISC-V等常见架构的特点。最后,文章讨论了CPU的并行处理架构,如SISD、SIMD、MISD、MIMD和SIMT,并概述了这些架构在服务器、PC及嵌入式领域的应用情况。
134 4
|
2月前
|
存储 人工智能 vr&ar
【AI系统】CPU 基础
CPU,即中央处理器,是计算机的核心组件,负责执行指令和数据计算,协调计算机各部件运作。自1946年ENIAC问世以来,CPU经历了从弱小到强大的发展历程。本文将介绍CPU的基本概念、发展历史及内部结构,探讨世界首个CPU的诞生、冯·诺依曼架构的影响,以及现代CPU的组成与工作原理。从4004到酷睿i系列,Intel与AMD的竞争推动了CPU技术的飞速进步。CPU由算术逻辑单元、存储单元和控制单元三大部分组成,各司其职,共同完成指令的取指、解码、执行和写回过程。
79 3
|
2月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
54 0
|
2月前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
58 0

热门文章

最新文章