深度神经网络每秒分类近20亿张图像,新型类脑光学分类器芯片登上Nature

简介: 深度神经网络每秒分类近20亿张图像,新型类脑光学分类器芯片登上Nature

应用从计算机视觉到医学诊断的深度神经网络,通常使用基于时钟的处理器来实现,其中计算速度主要受时钟频率和内存访问时间的限制。在光学领域,尽管光子计算取得了进步,但缺乏可扩展的片上光学非线性和光子器件的损耗限制了光学深度网络的可扩展性。在这里,宾夕法尼亚大学的研究团队报告了一种集成的端到端光子深度神经网络(PDNN),该网络通过直接处理撞击在片上像素阵列上的光波,在它们通过神经元层传播时执行亚纳秒级图像分类。在每个神经元中,光学执行线性计算,光电实现非线性激活函数,允许分类时间低于 570 ps,与最先进的数字平台的单个时钟周期相当。均匀分布的供应光可提供相同的每个神经元光输出范围,从而可扩展到大规模 PDNN。证明了手写字母的二类和四类分类,准确率分别高于 93.8% 和 89.8%。光学数据的直接、无时钟处理消除了模数转换和对大内存模块的需求,从而为下一代深度学习系统提供更快、更节能的神经网络。该研究以「An on-chip photonic deep neural network for image classification」为题,于 2022 年 6 月 1 日发布在《Nature》。模仿人脑工作的深度神经网络现在通常为计算机视觉、语音识别等提供支持。然而,它们越来越受到用于实现它们的硬件的限制。现在,科学家们已经在光子微芯片上开发了一种深度神经网络,可以在不到一纳秒的时间内对图像进行分类,这与最先进的电子设备中的时钟的单个滴答时间大致相同。在人工神经网络中,被称为「神经元」的组件被输入数据并协同解决问题,例如识别人脸。神经网络反复调整其神经元之间的联系,并查看由此产生的行为模式是否能更好地找到解决方案。随着时间的推移,网络会发现哪些模式最适合计算结果。然后它采用这些作为默认值,模仿人脑中的学习过程。如果一个神经网络拥有多层神经元,它就被称为「深度」。尽管这些人工智能系统越来越多地找到现实世界的应用程序,但是鉴于运行它们的硬件,它们面临着许多重大挑战。首先,它们通常使用基于数字时钟的平台来实现,例如图形处理单元(GPU),这将它们的计算速度限制在时钟频率上——对于大多数最先进的 GPU 来说小于 3 GHz。其次,与可以计算和存储数据的生物神经元不同,传统电子设备将内存和处理单元分开。在这些组件之间来回穿梭数据会浪费时间和精力。此外,原始视觉数据通常需要转换为数字电子信号,耗时较长。此外,通常需要大内存单元来存储图像和视频,从而引发潜在的隐私问题。受人脑中分布式数据处理的启发,深度神经网络旨在使用互连的神经元(节点)层来处理输入数据,这些神经元可以使用一组训练数据进行训练以学习特定任务。一旦经过训练,该网络就可以在一组新的数据上以高精度执行相同的任务。深度神经网络的一般架构:首先排列输入数据,然后使用第一层的神经元进行处理,然后是中间(隐藏)层。分类结果出现在最后(输出)层的输出。网络中的每个神经元通过将其输入的加权和传递给非线性激活函数来生成输出。

图 1:传统和光子-电子深度神经网络。(来源:论文)

深度神经网络通常使用基于数字时钟的平台来实现,例如图形处理单元 (GPU) 或专用集成电路 (ASIC)。GPU 是高度可重构的处理器,能够并行执行大量计算,但它们的计算时间主要受时钟频率(最先进的 GPU 大多小于 3 GHz)和内存访问时间的限制。与 GPU 相比,使用 ASIC 实现深度网络可以在单位能耗性能方面提供一到两个数量级的改进。然而,它们通常面临与 GPU 类似的挑战,对于具有大量神经元层的更复杂的网络来说,GPU 变得更加显著。此外,对于数字实现平台,原始输入数据通常需要转换为电域、数字化和处理。通常,需要一个大的内存单元来存储数据集,这限制了处理时间,并且在图像或视频分类的情况下,可能会带来隐私问题。光学频率下可用的大带宽以及纳米光子波导(用作互连)的低传播损耗,使光子集成电路成为实现快速和节能处理单元的有前途的平台,可以增强传统数字处理器的性能。据报道,深度神经网络的光子实现提供了关键特性,例如网络内的高速线性操作和低损耗高带宽连接。然而,到目前为止,神经网络的所有演示仅限于台式设置或深度学习网络部分的集成,并且由于缺乏可扩展的片上非线性功能和级联光子器件的无补偿损耗,尚未演示用于数据分类的可扩展、完全集成的光子深度学习系统。宾夕法尼亚大学的研究人员报告了第一个集成的端到端 PDNN 的演示,它使用传播计算来执行亚纳秒图像分类。目标图像在用作输入像素的光栅耦合器阵列上形成,其中照射在不同像素上的光波被耦合到相应的纳米光子波导中,并在光通过 PDNN 芯片上不同层的神经元传播时进行处理。通过供应光的均匀分布,网络中的所有神经元具有相同的光输出范围,从而可以扩展到大量层。作为概念验证,PDNN 芯片用于手写字母的二类和四类分类,准确率分别高于 93.8% 和 89.8%。测量表明,PDNN 系统能够实现 570 ps 的端到端分类时间;这与最先进的数字平台的单个时钟周期相当。作为比较点,使用 Keras 在 Python 环境中实现的传统深度神经网络分类器在相同数据集上实现了 96% 的准确率。已实现的 PDNN 具有直接、无时钟的输入图像处理功能,无需进行光电检测、缩放和放大、模拟到数字转换、数据对齐和大型内存模块;从而为下一代深度学习系统实现更快、更节能、更具隐私意识的神经网络。PDNN 芯片集成在 9.3 mm^2 的封装内。实现的 PDNN 芯片的架构和 PDNN 芯片内的 N 输入光子神经元的结构分别如图 1c、d 所示。目标图像在输入的 5 × 6 像素阵列上形成,该阵列分为四个重叠的 3 × 4 像素子图像。输入纳米光子波导布置成将每个子图像的像素路由到输入层中的 12-input 神经元,形成卷积层。卷积层通常用于图像/模式识别应用程序的深度网络中,允许更少的连接数和更有效的特征提取。第一层的输出完全连接到第二层的三个神经元。同样,第二层的三个输出与第三层的两个神经元全连接,产生两个网络输出,Out1 和 Out2。图 2:光子-电子神经元的实现。具有 N 个光学输入(Ini)和一个光学输出的光子神经元的结构如图 2a 所示,其中光学执行线性计算,光电实现非线性激活函数。首先,使用 500 微米长的 P 掺杂-本征-N 掺杂(PIN)电流控制衰减器阵列来单独调整神经元每个输入纳米光子波导中的光功率。PIN 衰减器的横截面及其显微照片如图 2b 所示。通过正向偏置 PIN 结和注入载流子,可以调整每个神经元输入的光波功率(即信号权重)。为了添加权重调整后的信号,衰减器的输出使用硅锗(SiGe)光电二极管(PD)进行光电检测,并将产生的光电流组合以生成神经元输入的加权和 isum为了生成神经元输出,神经元输入的加权和通过非线性激活函数传递;这里,提供快速收敛的整流线性单元(ReLU)函数用作非线性激活函数,并通过使用 PN 结微环调制器(MRM)的电光非线性响应来实现。在图 2a 中,电流 isum(即输入的加权和)被放大并使用线性跨阻放大器 (TIA) 转换为电压。MRM(驱动正向偏置 PN 结)的输入电压 VM 是通过将直流电压 Vb 添加到 TIA 输出电压 VTIA 来生成的。耦合到芯片中的激光功率均匀分布在所有神经元(在所有层内),为每个神经元中的 MRM 输入提供电源光。考虑 MRM 的谐振波长 λres 最初与供应光波长 λlaser 对齐的情况。当 MRM 的输入电压 VM 小于阈值电压 VTH 时,PN 结保持关闭状态,没有载流子注入 PN 结。因此,λres 保持与 λlaser 对齐,并且神经元光输出功率 POut 保持低,因为供应光被 MRM 的陷波响应过滤。当isum足够大以至于VM超过VTH时,PN结开启并且注入的载流子改变PN结中光波导的折射率。结果,λres 移动,神经元光输出功率增加。配置为电光 ReLU 的 MRM 的测量响应如图 2h 所示,其中 POut/PS 密切遵循作为 VM 函数的整流线性特性。可以通过设置 Vb 来调整 ReLU 阈值 (VTH)。图 3:实现的光子分类器芯片。(来源:论文)一般来说,所提出的 PDNN 芯片的分类速度主要受 MRM、SiGe PD 和 TIA 带宽的限制,因为处理是在波在芯片内传播时执行的。整个端到端 PDNN 分类器(即直接成像,将输入数据光学传输到第一层,几层线性和非线性操作)的传播时间(对应于端到端分类时间)测得约为 570 ps。「它每秒可以对近 20 亿张图像进行分类。」该研究的资深作者、费城宾夕法尼亚大学的电气工程师 Firooz Aflatouni 说,「作为参考,传统的视频帧速率为每秒 24 到 120 帧。」此外,每层线性运算的计算速度低于 60 ps,这对应于每层的线性计算密度和能量效率分别约为 3.5 TOPS mm-2 (TOPS:每秒万亿次操作)和 345 fJ OP-1。使用提供电子和光子器件单片集成的商业 SOI 制造工艺,可以实现数十千兆赫兹的总带宽,允许类似 PDNN 架构的总分类时间低于 100 ps。PDNN 架构可以扩展为具有更多像素的分类器,用于对更高分辨率的图像和更复杂的模式进行超快速分类。与全电子实现相比,PDNN 架构中低损耗纳米光子波导和分离器的可用性显著降低了信号扇出和分配的挑战。将重叠子图像路由到输入层的神经元(以执行卷积)的复杂性可以通过使用具有多个光子路由层的制造过程来解决,允许更复杂的光子路由,和/或通过平铺多个像素阵列 。「通过传播计算,计算发生在波通过介质传播时,可以以光速执行计算。」Aflatouni 说。研究人员现在正在尝试使用这些设备对视频和 3D 对象进行分类,并使用具有更多像素和神经元的更大芯片对更高分辨率的图像进行分类。此外,「这项技术的应用不仅限于图像和视频分类。」Aflatouni 说,「任何可以转换到光域的信号,例如音频和语音,都可以使用这项技术几乎瞬间进行分类。」论文链接:https://www.nature.com/articles/s41586-022-04714-0相关报道:https://spectrum.ieee.org/photonic-neural-network

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
3月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
381 0
|
2月前
|
JSON 网络协议 安全
【Java】(10)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
196 1
|
2月前
|
JSON 网络协议 安全
【Java基础】(1)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
221 1
|
2月前
|
机器学习/深度学习 数据采集 存储
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
334 0
|
4月前
|
机器学习/深度学习 数据采集 运维
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。
257 6
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
|
3月前
|
机器学习/深度学习 移动开发 编解码
基于人工神经网络的类噪声环境声音声学识别(Matlab代码实现)
基于人工神经网络的类噪声环境声音声学识别(Matlab代码实现)
125 1
|
3月前
|
安全 网络性能优化 网络虚拟化
网络交换机分类与功能解析
接入交换机(ASW)连接终端设备,提供高密度端口与基础安全策略;二层交换机(LSW)基于MAC地址转发数据,构成局域网基础;汇聚交换机(DSW)聚合流量并实施VLAN路由、QoS等高级策略;核心交换机(CSW)作为网络骨干,具备高性能、高可靠性的高速转发能力;中间交换机(ISW)可指汇聚层设备或刀片服务器内交换模块。典型流量路径为:终端→ASW→DSW/ISW→CSW,分层架构提升网络扩展性与管理效率。(238字)
983 0
|
7月前
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
374 3
|
7月前
|
存储 数据管理 网络虚拟化
特殊网络类型分类
本文介绍了网络技术中的关键概念,包括虚拟局域网(VLAN)、存储区域网络(SAN)、网络桥接、接入网以及按拓扑结构和交换方式分类的网络类型。VLAN通过逻辑分隔提高性能与安全性;SAN提供高性能的数据存储解决方案;网络桥接实现不同网络间的互联互通;接入网解决“最后一千米”的连接问题。此外,文章详细对比了总线型、星型、树型、环型和网状型等网络拓扑结构的特点,并分析了电路交换、报文交换和分组交换的优缺点,为网络设计与应用提供了全面参考。
269 8

热门文章

最新文章