「深度学习注意力机制 」TKDE 2022研究综述

简介: 「深度学习注意力机制 」TKDE 2022研究综述

image.png



【新智元导读】注意力机制(Attention Mechanism)是深度学习中常用的模块,作为一种资源分配方案,将有限的计算资源用来处理更重要的信息,是解决信息超载问题的主要手段。下面这篇是来自Erasmus University的Gianni Brauwers和Flavius Frasincar在TKDE上发表的《深度学习注意力机制》综述论文。


注意力是一种重要的机制,可用于跨许多不同领域和任务的各种深度学习模型。这项综述提供了一个关于深度学习注意力机制的重要概述。


各种注意力机制通过一个由注意力模型,统一符号,和一个全面的分类注意力机制组成的框架来进行解释。


在此基础上,本文综述了注意力模型评价的各种方法,并讨论了基于该框架的注意力模型结构表征方法。最后,对注意力模型领域的未来工作进行了展望。

论文链接:https://ieeexplore.ieee.org/document/9609539/


引言


模拟人类注意力的想法最早出现在计算机视觉领域,试图通过引入一个只关注图像特定区域而不是整个图像的模型来降低图像处理的计算复杂度,同时提高性能。


然而,我们今天所知道的注意力机制的真正起点通常是源于自然语言处理领域。Bahdanau等人的在机器翻译模型中实现了注意力,以解决循环神经网络结构中的某些问题。


在Bahdanau等人的强调了注意力的优点后,注意力技术得到了改进,并迅速流行于各种任务,如文本分类、图像字幕、情感分析,以及语音识别。


注意力已经成为深度学习中的一种流行技术,原因有几个。首先,整合了注意力机制的模型在上述所有任务和许多其他任务中都获得了最先进的结果。


大多数注意力机制可以与基本模型联合训练,如使用规则反向传播的循环神经网络或卷积神经网络。注意力向神经网络模型引入了一种特定类型的解释,这种解释通常被认为非常复杂。


Transformer模型的引入进一步证明了注意力的有效性,进一步提高了注意力机制的受欢迎程度。注意力最初是作为循环神经网络的扩展而引入的。然而,在中提出的Transformer模型是注意力研究的一个重大发展,因为它证明了注意力机制足以建立一个最先进的模型。


这意味着可以避免一些缺点,比如递归神经网络特别难以并行化的事实。就像引入最初的注意力机制一样,Transformer模型是为机器翻译创建的,但很快就被用于其他任务,如图像处理、视频处理和推荐系统。


本综述的目的是解释注意力的一般形式,并提供一个在深度学习注意力技术的全面概述。本综述与之前的研究主要区别在于,其他的综述一般都关注某个领域内的注意力模型。然而,这项综述提供了一个跨领域的注意力技术概述。


我们将以一种通用的方式讨论注意力技术,使它们能够被理解并应用于各种领域。我们发现以往研究中提出的分类方法缺乏恰当区分各种注意力机制所需的深度和结构。某些重要的注意力技巧在以前的综述中还没有得到适当的讨论,而其他提出的注意力机制似乎缺乏技术细节或直观的解释。


因此,在本文中,我们通过使用统一符号的单一框架,结合技术和直观的解释,提出了重要的注意力技术,并对注意力机制进行了全面的分类。


通用注意力模型


本节介绍一种注意力一般性与相应的符号。本节中介绍的框架将在本文的其余部分中使用。


为了实现一个通用的注意力模型,首先需要描述一个可以使用注意力的模型的一般特征。首先,我们将完整的模型称为任务模型。这个模型只接受一个输入,执行指定的任务,并产生所需的输出。


例如,任务模型可以是一种语言模型,它将一段文本作为输入,并将内容摘要、情绪分类或逐字翻译成另一种语言的文本作为输出。或者,任务模型可以获取图像,并为该图像生成标题或分割。任务模型由四个子模型组成: 特征模型、查询模型、注意力模型和输出模型。


注意力分类法


有许多不同类型的注意力机制和扩展,一个模型可以使用这些注意技术的不同组合。因此,我们提出了一种分类法,可以用来对不同类型的注意机制进行分类。


基于是否关注技术是设计来处理特定类型的特征向量(相关特性),特定类型的模型查询(查询相关)或者它仅仅是一个通用的机制,分成三大类。这些类别及其子类别的进一步解释将在下面的小节中提供。



特征相关注意力机制


基于特定的一组输入数据,特征模型提取特征向量,从而使注意力模型能够关注这些不同的向量。这些特征可能具有特定的结构,需要特殊的注意力机制来处理它们。可以对这些机制进行分类,以处理以下特征特征之一: 特征的多样性、特征的级别或特征的表示。


通用注意力机制


这个主要的类别包括了可以应用于任何类型的注意力模型的注意力机制。该组件的结构可以分解为以下几个子方面:注意力评分函数、注意力对齐和注意力维度。



查询相关的注意力机制


查询是任何注意力模型的重要组成部分,因为它们直接决定从特征向量中提取哪些信息。这些查询基于任务模型的期望输出,可以解释为文字问题。有些查询具有特定的特征,需要特定类型的机制来处理它们。


因此,这一类封装了处理特定类型查询特征的注意力机制。这一类中的机制处理以下两个查询特征之一:查询的类型或查询的多样性。



注意力模型评价


在本节中,我们介绍了各种类型的注意力模型的评估。


首先,我们可以使用分类法来评估注意力模型的结构。对于这样的分析,我们考虑注意力机制类别作为模型的正交维数。可以通过确定模型对每个类别使用的机制来分析模型的结构。


其次,我们讨论了评价注意力模型表现的各种技术。其中,注意力模型的性能可以通过外部或内部性能测量来评估。



结论


本研究综述了近年来关于深度学习中的注意力模型的研究进展。注意力机制已经成为深度学习模型的一个显著发展,因为它们已经表明可以显著提高模型性能,在几个研究领域的各种任务中产生了最先进的结果。


我们提出了一个全面的分类,可以用来分类和解释不同数量的注意力机制提出的文献。分类法的组织基于任务模型的结构,该任务模型由一个特征模型、一个注意力模型、一个查询模型和一个输出模型组成。此外,还使用基于查询、键和值的框架讨论了注意力机制。

最后,我们展示了如何使用外在和内在的测量方法来评估注意力模型的表现,以及如何使用分类方法来分析注意力模型的结构。


参考资料:

[1] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010). Curran Associates, Inc., 2010, pp. 1243–1251.

[2] V. Mnih, N. Heess, A. Graves, and k. kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014). Curran Associates, Inc., 2014, pp. 2204–2212.


相关文章
|
5月前
|
人工智能 运维 Kubernetes
别再拍脑袋上线了:聊聊“发布前自动打分系统”,用数据提前识别变更风险
别再拍脑袋上线了:聊聊“发布前自动打分系统”,用数据提前识别变更风险
213 1
|
druid 数据库
几行代码轻松复现druid连接泄露的BUG之keepalive
几行代码轻松复现druid连接泄露的BUG之keepalive
1739 6
|
4月前
|
人工智能
阿里云CN域名收费价格2026年最新整理,CN域名注册、续费、转入和赎回费用整理
阿里云2026年CN域名最新资费:英文.cn注册38元/年,续费42元/年;中文.cn注册99元/年;转入同注册价;赎回高达1200元。享“互联网上的中国标识”等专属口令优惠,详情见万网官网。
822 1
|
缓存 人工智能 自然语言处理
阿里云百炼工作流新版功能介绍
阿里云百炼工作流全新升级,带来十大优化:对话与任务模板合并、UI界面焕新、画布性能提升、布局优化、新增流程输入输出节点、报错机制改进、聚合分组功能、参数提取节点、绘画变量记忆增强、失败重试机制。提升流程设计效率与稳定性,助力开发者高效构建AI应用。
1100 1
|
AliSQL 关系型数据库 MySQL
AI时代,当 MySQL 遇见列式存储引擎 DuckDB
国内首场《2026 AliSQL Innovate 用户大会暨 AliSQL DuckDB 开源发布会》将于2月3日在杭州开启!席位有限,快来报名吧:https://page.aliyun.com/form/act1162737496/index.htm
AI时代,当 MySQL 遇见列式存储引擎 DuckDB
|
4月前
|
存储 人工智能 物联网
给AI模型“瘦身”:LoRA微调技术,让你用消费级显卡玩转大模型
LoRA(低秩自适应)技术让大模型微调变得高效且低成本。它通过冻结原模型权重,仅训练小型适配矩阵,大幅减少显存占用与计算资源。相比全参数微调,LoRA在保持接近原模型性能的同时,可将可训练参数量降低至0.1%以下,使个人开发者用普通GPU也能微调7B级大模型。结合QLoRA、多任务融合与权重合并,LoRA已成为大模型落地应用的核心工具,真正实现“轻量化定制”。
|
4月前
|
机器学习/深度学习 人工智能 算法
放弃手搓算法吧!ReEvo:让大模型通过“反思”自动进化出SOTA算法
ReEvo提出“语言梯度”新范式,让大模型通过自我反思进化算法。它使LLM不再盲写代码,而是像专家般分析优劣、总结经验,逐步优化出超越人类设计的启发式算法,在芯片布局、TSP等问题上表现SOTA,实现AI自动“炼”算法的突破。
378 0
|
人工智能 架构师 Java
传智教育引通义灵码进课堂,为技术人才教育学习提效
7 月 17 日,阿里云与传智教育在阿里巴巴云谷园区签署合作协议,双方将基于阿里云智能编程助手通义灵码在课程共建、品牌合作及产教融合等多个领域展开合作,共同推进 AI 教育及相关业务的发展,致力于培养适应未来社会需求的高素质技术人才。
|
消息中间件 弹性计算 Java

热门文章

最新文章