一种新的神经形态计算架构,可以更有效地运行深度神经网络

简介: 一种新的神经形态计算架构,可以更有效地运行深度神经网络

随着人工智能和深度学习技术变得越来越先进,工程师将需要创建能够可靠且高效地运行其计算的硬件。受人脑结构和生物学启发的神经形态计算硬件,在支持复杂的深度神经网络(DNN)的操作方面可能有巨大前景。基于尖峰的神经形态硬件有望实现比 GPU 等标准硬件更节能的 DNN。但这需要我们了解如何在基于事件的稀疏触发机制中模拟 DNN,否则会失去能量优势。特别是,解决序列处理任务的 DNN 通常使用长短期记忆单元,这些单元很难用很少的尖峰来模拟。英特尔和格拉茨理工大学的合作团队表明,许多生物神经元的一个现象,每个尖峰后的超极化后电流缓慢,这提供了一种有效的解决方案。后超极化电流可以很容易地在支持多室神经元模型的神经形态硬件中实现,例如英特尔的 Loihi 芯片。高斯滤波器逼近理论解释了,为什么超极化后神经元可以模拟长短期记忆单元的功能。这产生了一种高能效的时间序列分类方法。此外,它为高效执行一类重要的大型 DNN 提供了基础。该研究以「A Long Short-Term Memory for AI Applications in Spike-based Neuromorphic Hardware」为题,于 2022 年 5 月 19 日发布在《Nature Machine Intelligence》。背景能源消耗是使用深度神经网络(DNN)等 AI 方法更广泛应用的主要障碍,尤其是在边缘设备中。基于尖峰的神经形态硬件是有望缓解这一问题的一个方向。这项研究的部分灵感来自大脑,它运行着更复杂、更大的神经网络,总能耗仅为 20 W。这种惊人的能量效率的一个关键因素是大脑中的神经元平均每秒仅发出几次信号。相比之下,典型 DNN 的单元发出一个输出值,因此消耗能量的频率要高几个数量级。但是,确定哪些类型的 DNN 可以通过神经形态硬件中稀疏活跃的神经元以节能的方式实现,以用于现代 AI 解决方案仍然是一个悬而未决的问题。在大多数情况下,这需要重新考虑 DNN 设计原则。一个更具体的开放性问题是,用于序列处理任务的 DNN 的长短期记忆(LSTM)单元,如何在基于尖峰的神经形态硬件中以良好的能效实现。「我们已经证明,如果使用受大脑启发的神经元和神经网络架构在神经形态硬件上解决相同的问题,则可以更高效地实现一大类 DNN,即那些处理时间扩展输入(例如句子)的 DNN。」 进行这项研究的研究人员之一 Wolfgang Maass 说,「此外,我们认为 DNN 对于更高层次的认知功能至关重要,例如寻找故事中句子之间的关系并回答有关其内容的问题。」简介该团队的研究人员展示了生物神经元的一个特征,即目前尚未包含在神经形态硬件模型中的缓慢变化的内部电流的存在,赋予脉冲神经网络(SNN)与 DNN 中的 LSTM 单元类似的工作记忆能力。特别是,缓慢的后超极化 (AHP) 电流会降低生物神经元在最近的放电活动后再次放电的准备情况。图示:具有 AHP 电流的两室 LIF 神经元模型的示意图和动力学。(来源:论文)这种效应在神经科学中被称为尖峰频率适应。艾伦研究所的实验数据表明,新皮质中相当数量的神经元(人类额叶中超过 30% 的兴奋性神经元)表现出尖峰频率适应。该研究表明,AHP 神经元不仅通过减少放电活动来节省能量,而且还为解决序列处理任务提供了 LSTM 单元的真正替代方案,并支持通过时间反向传播(BPTT)进行训练。生物神经元和标准脉冲神经元模型之间的另一个主要区别是生物神经元将其膜电位保持在相对狭窄的范围内。相比之下,当使用正则化项对网络进行训练以诱导低放电率时,模型的膜电位通常会呈现极负值。这实际上从当前的网络计算中删除了其中的许多。研究人员引入了一种膜电压正则化原理来缓解这个问题,并支持极其稀疏发射尖峰 DNN 的设计。他们在一个常用的基于脉冲的芯片上分析了这两个原理的功能含义:英特尔的神经形态芯片 Loihi,并发现能量延迟积(EDP)显着降低。与功率相比,EDP 说明了每个任务/工作负载/计算的真正能源和时间成本。同时,这些实现表明,大脑和机器智能中认知计算的两个特征——工作记忆和关于概念或对象之间关系的推理——实际上可以在基于峰值的神经形态硬件中比在GPU(用于实现DNN的标准计算硬件)中更有效地实现。深度讨论已经证明,机器学习和 AI 中 DNN 进行序列处理的关键工具 LSTM 单元可以在基于尖峰的神经形态硬件中被具有生物启发的尖峰频率适应机制的神经元取代:AHP 电流。这种方法得到了理论原理的支持,即来自滤波器近似理论的 PSPR。在神经元模型中添加一个用于 AHP 电流的隔间还具有通过为梯度的反向传播创建通往过去的高速公路来增强 BPTT 训练结果的优势。由于 AHP 神经元也可用于通用网络计算,因此该解决方案不需要将计算单元和工作内存单元分开——它是一种内存计算解决方案。图示:用于 sMNIST 任务的 AHP-SNN 的 PSPR、梯度传输和能耗。(来源:论文)这减少了通常由计算单元和内存单元之间的流量引起的延迟和能耗。由此产生的用于解决基准时间序列分类任务 sMNIST 的基于尖峰的解决方案比 CPU 和 GPU 上 LSTM 网络的最先进实现的能效高三个数量级,同时实现更低的延迟和几乎相同的精度。使用 AHP 神经元使研究人员能够将涉及大型前馈网络组件,以及 LSTM 单元的大型 DNN 移植到基于脉冲的硬件中。该团队专注于关系网络的例子,因为它们通过支持推理故事或图像中对象之间的关系,使人工智能能力实现了质的飞跃。一个节能的基于尖峰的关系网络实现需要一种方法,使它们能够及时使用稀有事件(尖峰)而不是基于速率的神经代码,包括在它们的前馈网络模块中。研究人员已经证明,在整个计算过程中,每个神经元的稀疏度远小于一个峰值对于关系网络是可以实现的。图示:电压正则化及其与尖峰率正则化相结合的执行稀疏点火机制的能力。(来源:论文)通过在训练期间使用一种新的电压正则化方法,结合迫使网络在特定时间点产生决策的输出约定,以及一个具有短膜时间常数且无不应期的尖峰神经元模型,这一点成为可能,该模型支持严格的局部时间计算操作。Loihi 上关系网络的最终实现提供了 Loihi 上大型 DNN 的示例,其中这种基于尖峰的硬件变得比 GPU 更节能。此外,在当前和未来的神经形态硬件中,由此产生的非常稀疏的活跃尖峰 RelNet 可能会变得更加节能,其中神经核心中神经元的突触连接数量比 Loihi 上的限制更少。这种限制迫使研究人员将尖峰 RelNet 分布在 22 个 Loihi 芯片上的 2,308 个神经核上,从而增加了延迟和能耗。尽管如此,与 GPU 相比,关系网络的 EDP 显着降低。事实上,对 Loihi 上 DNN 实施过程讨论,总结出的结论是,它代表了「迄今为止最大的深度学习网络,与传统架构相比显示出收益」。因此,关系网络代表了一类 DNN,与 CNN 相比,它可以更有效地移植到基于脉冲的硬件上。

图示:Spiking RelNet 在 Loihi 上的放置和优化。(来源:论文)

根据其他团队的研究结果,可以预期神经形态硬件中的关系网络不仅可以用于解决自然语言中的问答任务,还可以用于推理图像或听觉场景中对象之间的关系 。这可以在高能效神经形态硬件的 AI 能力上提供质的飞跃。另一个有趣的研究是,通过使用 e-prop 而不是 BPTT 来启用这些基于脉冲的 LSTM 网络替代方案的片上训练,这已被证明对 LSNN 非常有效。这些尖峰网络也已经证明了一次性学习能力,并且所需的方法很可能也将启用这些网络的一次性片上训练。最后,将 AHP 电流添加到神经形态硬件中的尖峰神经元模型,可以被视为将新皮质中神经元的更复杂的点神经元模型移植到此类硬件中的第一步。如果在额外的神经元隔室中再增加一个电流,则可以实现各种 GLIF3 神经元模型阵列,这些模型可以说是神经形态硬件中通用皮层微电路的最先进模型。这将为神经形态硬件在计算神经科学中的新用途打开大门:用于模拟大脑神经网络的最先进的大型模型,比目前可能的速度和能量要少得多。这有可能成为 Loihi 或 SpiNNaker 等神经形态硬件的主要新应用,支持标准脉冲神经元模型的这种生物改进的实施。同时,神经形态硬件对于回答计算神经科学中一个重要的开放性问题可能变得很重要:在大脑进化过程中出现的新皮层中神经元类型的惊人多样性的计算优势是什么?论文链接:https://www.nature.com/articles/s42256-022-00480-w相关报道:https://techxplore.com/news/2022-06-neuromorphic-architecture-deep-neural-networks.html

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
5月前
|
人工智能 运维 安全
配置驱动的动态 Agent 架构网络:实现高效编排、动态更新与智能治理
本文所阐述的配置驱动智能 Agent 架构,其核心价值在于为 Agent 开发领域提供了一套通用的、可落地的标准化范式。
1592 84
|
5月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
353 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
5月前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
460 129
|
5月前
|
人工智能 安全 数据可视化
配置驱动的动态Agent架构网络:实现高效编排、动态更新与智能治理
本文系统性地提出并阐述了一种配置驱动的独立运行时Agent架构,旨在解决当前低代码/平台化Agent方案在企业级落地时面临困难,为Agent开发领域提供了一套通用的、可落地的标准化范式。
484 18
配置驱动的动态Agent架构网络:实现高效编排、动态更新与智能治理
|
5月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
339 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
9月前
|
算法 JavaScript 数据安全/隐私保护
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
本内容介绍了一种基于GA遗传优化的阈值计算方法在认知异构网络(CHN)中的应用。通过Matlab2022a实现算法,完整代码含中文注释与操作视频。能量检测算法用于感知主用户信号,其性能依赖检测阈值。传统固定阈值方法易受噪声影响,而GA算法通过模拟生物进化,在复杂环境中自动优化阈值,提高频谱感知准确性,增强CHN的通信效率与资源利用率。预览效果无水印,核心程序部分展示,适合研究频谱感知与优化算法的学者参考。
|
6月前
|
机器学习/深度学习 并行计算 算法
【图像分割】基于神经气体网络的图像分割与量化(Matlab代码实现)
【图像分割】基于神经气体网络的图像分割与量化(Matlab代码实现)
106 0
|
10月前
|
人工智能 供应链 调度
|
9月前
|
存储 消息中间件 弹性计算
阿里云服务器ECS计算型c7和通用算力型u1在适用场景、计算性能、网络与存储性能等方面的对比
阿里云ECS服务器u1和c7实例在适用场景、性能、处理器特性等方面存在显著差异。u1为通用算力型,性价比高,适合中小企业及对性能要求不高的场景;c7为企业级计算型,采用最新Intel处理器,性能稳定且强大,适用于高性能计算需求。u1支持多种CPU内存配比,但性能一致性可能受底层平台影响;c7固定调度模式,确保高性能与稳定性。选择时可根据预算与性能需求决定。
443 23

热门文章

最新文章