「深度学习注意力机制 」TKDE 2022研究综述

简介: 「深度学习注意力机制 」TKDE 2022研究综述

image.png



【新智元导读】注意力机制(Attention Mechanism)是深度学习中常用的模块,作为一种资源分配方案,将有限的计算资源用来处理更重要的信息,是解决信息超载问题的主要手段。下面这篇是来自Erasmus University的Gianni Brauwers和Flavius Frasincar在TKDE上发表的《深度学习注意力机制》综述论文。


注意力是一种重要的机制,可用于跨许多不同领域和任务的各种深度学习模型。这项综述提供了一个关于深度学习注意力机制的重要概述。


各种注意力机制通过一个由注意力模型,统一符号,和一个全面的分类注意力机制组成的框架来进行解释。


在此基础上,本文综述了注意力模型评价的各种方法,并讨论了基于该框架的注意力模型结构表征方法。最后,对注意力模型领域的未来工作进行了展望。

论文链接:https://ieeexplore.ieee.org/document/9609539/


引言


模拟人类注意力的想法最早出现在计算机视觉领域,试图通过引入一个只关注图像特定区域而不是整个图像的模型来降低图像处理的计算复杂度,同时提高性能。


然而,我们今天所知道的注意力机制的真正起点通常是源于自然语言处理领域。Bahdanau等人的在机器翻译模型中实现了注意力,以解决循环神经网络结构中的某些问题。


在Bahdanau等人的强调了注意力的优点后,注意力技术得到了改进,并迅速流行于各种任务,如文本分类、图像字幕、情感分析,以及语音识别。


注意力已经成为深度学习中的一种流行技术,原因有几个。首先,整合了注意力机制的模型在上述所有任务和许多其他任务中都获得了最先进的结果。


大多数注意力机制可以与基本模型联合训练,如使用规则反向传播的循环神经网络或卷积神经网络。注意力向神经网络模型引入了一种特定类型的解释,这种解释通常被认为非常复杂。


Transformer模型的引入进一步证明了注意力的有效性,进一步提高了注意力机制的受欢迎程度。注意力最初是作为循环神经网络的扩展而引入的。然而,在中提出的Transformer模型是注意力研究的一个重大发展,因为它证明了注意力机制足以建立一个最先进的模型。


这意味着可以避免一些缺点,比如递归神经网络特别难以并行化的事实。就像引入最初的注意力机制一样,Transformer模型是为机器翻译创建的,但很快就被用于其他任务,如图像处理、视频处理和推荐系统。


本综述的目的是解释注意力的一般形式,并提供一个在深度学习注意力技术的全面概述。本综述与之前的研究主要区别在于,其他的综述一般都关注某个领域内的注意力模型。然而,这项综述提供了一个跨领域的注意力技术概述。


我们将以一种通用的方式讨论注意力技术,使它们能够被理解并应用于各种领域。我们发现以往研究中提出的分类方法缺乏恰当区分各种注意力机制所需的深度和结构。某些重要的注意力技巧在以前的综述中还没有得到适当的讨论,而其他提出的注意力机制似乎缺乏技术细节或直观的解释。


因此,在本文中,我们通过使用统一符号的单一框架,结合技术和直观的解释,提出了重要的注意力技术,并对注意力机制进行了全面的分类。


通用注意力模型


本节介绍一种注意力一般性与相应的符号。本节中介绍的框架将在本文的其余部分中使用。


为了实现一个通用的注意力模型,首先需要描述一个可以使用注意力的模型的一般特征。首先,我们将完整的模型称为任务模型。这个模型只接受一个输入,执行指定的任务,并产生所需的输出。


例如,任务模型可以是一种语言模型,它将一段文本作为输入,并将内容摘要、情绪分类或逐字翻译成另一种语言的文本作为输出。或者,任务模型可以获取图像,并为该图像生成标题或分割。任务模型由四个子模型组成: 特征模型、查询模型、注意力模型和输出模型。


注意力分类法


有许多不同类型的注意力机制和扩展,一个模型可以使用这些注意技术的不同组合。因此,我们提出了一种分类法,可以用来对不同类型的注意机制进行分类。


基于是否关注技术是设计来处理特定类型的特征向量(相关特性),特定类型的模型查询(查询相关)或者它仅仅是一个通用的机制,分成三大类。这些类别及其子类别的进一步解释将在下面的小节中提供。



特征相关注意力机制


基于特定的一组输入数据,特征模型提取特征向量,从而使注意力模型能够关注这些不同的向量。这些特征可能具有特定的结构,需要特殊的注意力机制来处理它们。可以对这些机制进行分类,以处理以下特征特征之一: 特征的多样性、特征的级别或特征的表示。


通用注意力机制


这个主要的类别包括了可以应用于任何类型的注意力模型的注意力机制。该组件的结构可以分解为以下几个子方面:注意力评分函数、注意力对齐和注意力维度。



查询相关的注意力机制


查询是任何注意力模型的重要组成部分,因为它们直接决定从特征向量中提取哪些信息。这些查询基于任务模型的期望输出,可以解释为文字问题。有些查询具有特定的特征,需要特定类型的机制来处理它们。


因此,这一类封装了处理特定类型查询特征的注意力机制。这一类中的机制处理以下两个查询特征之一:查询的类型或查询的多样性。



注意力模型评价


在本节中,我们介绍了各种类型的注意力模型的评估。


首先,我们可以使用分类法来评估注意力模型的结构。对于这样的分析,我们考虑注意力机制类别作为模型的正交维数。可以通过确定模型对每个类别使用的机制来分析模型的结构。


其次,我们讨论了评价注意力模型表现的各种技术。其中,注意力模型的性能可以通过外部或内部性能测量来评估。



结论


本研究综述了近年来关于深度学习中的注意力模型的研究进展。注意力机制已经成为深度学习模型的一个显著发展,因为它们已经表明可以显著提高模型性能,在几个研究领域的各种任务中产生了最先进的结果。


我们提出了一个全面的分类,可以用来分类和解释不同数量的注意力机制提出的文献。分类法的组织基于任务模型的结构,该任务模型由一个特征模型、一个注意力模型、一个查询模型和一个输出模型组成。此外,还使用基于查询、键和值的框架讨论了注意力机制。

最后,我们展示了如何使用外在和内在的测量方法来评估注意力模型的表现,以及如何使用分类方法来分析注意力模型的结构。


参考资料:

[1] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010). Curran Associates, Inc., 2010, pp. 1243–1251.

[2] V. Mnih, N. Heess, A. Graves, and k. kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014). Curran Associates, Inc., 2014, pp. 2204–2212.


相关文章
|
机器学习/深度学习 数据可视化 网络架构
增强深度学习模型的可解释性和泛化能力的方法研究
【8月更文第15天】在深度学习领域,模型的准确率和预测能力是衡量模型好坏的重要指标。然而,随着模型复杂度的增加,它们往往变得越来越难以理解,这限制了模型在某些关键领域的应用,例如医疗诊断、金融风险评估等。本文将探讨如何通过几种方法来增强深度学习模型的可解释性,同时保持或提高模型的泛化能力。
1416 2
|
机器学习/深度学习 调度 计算机视觉
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
本文探讨了多种学习率调度策略在神经网络训练中的应用,强调了选择合适学习率的重要性。文章介绍了阶梯式衰减、余弦退火、循环学习率等策略,并分析了它们在不同实验设置下的表现。研究表明,循环学习率和SGDR等策略在提高模型性能和加快训练速度方面表现出色,而REX调度则在不同预算条件下表现稳定。这些策略为深度学习实践者提供了实用的指导。
614 2
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶中的应用研究####
本文旨在探讨深度学习技术,特别是卷积神经网络(CNN)在自动驾驶车辆图像识别领域的应用与进展。通过分析当前自动驾驶技术面临的挑战,详细介绍了深度学习模型如何提升环境感知能力,重点阐述了数据预处理、网络架构设计、训练策略及优化方法,并展望了未来发展趋势。 ####
456 6
|
机器学习/深度学习 监控 自动驾驶
基于深度学习的图像识别技术研究进展###
本文旨在探讨深度学习在图像识别领域的最新研究进展,重点分析卷积神经网络(CNN)的技术创新、优化策略及其在实际应用中的成效。通过综述当前主流算法结构、损失函数设计及数据集增强技巧,本文揭示了提升模型性能的关键因素,并展望了未来发展趋势。尽管未直接涉及传统摘要中的研究背景、方法、结果与结论等要素,但通过对关键技术点的深度剖析,为读者提供了对领域现状与前沿动态的全面理解。 ###
|
机器学习/深度学习 人工智能 自然语言处理
揭秘深度学习中的自注意力机制及其在Transformer模型中的应用
揭秘深度学习中的自注意力机制及其在Transformer模型中的应用
|
机器学习/深度学习 人工智能 自然语言处理
揭秘深度学习中的自注意力机制及其在现代AI应用中的革新
揭秘深度学习中的自注意力机制及其在现代AI应用中的革新
|
机器学习/深度学习 自然语言处理 计算机视觉
深度学习中的自注意力机制:理解与应用
在深度学习领域,自注意力机制(Self-Attention Mechanism)已成为推动模型性能飞跃的关键技术之一。本文将通过浅显易懂的方式,探讨自注意力机制的核心原理、实现方法及其在不同领域的应用实例,旨在为初学者和从业者提供一份简明扼要的指南。
|
机器学习/深度学习 搜索推荐 算法
深度学习-点击率预估-研究论文2024-09-14速读
深度学习-点击率预估-研究论文2024-09-14速读
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化深度学习研究与开发
【8月更文第27天】PyTorch Lightning 是一个用于简化 PyTorch 开发流程的轻量级封装库。它的目标是让研究人员和开发者能够更加专注于算法和模型的设计,而不是被训练循环和各种低级细节所困扰。通过使用 PyTorch Lightning,开发者可以更容易地进行实验、调试和复现结果,从而加速研究与开发的过程。
570 1
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的自注意力机制:理论与实践
在深度学习的海洋中,自注意力机制犹如一艘破浪前行的帆船,引领着模型理解数据的新航向。本文将深入探讨自注意力机制的原理,解析其如何在各类任务中发挥作用,并分享一些实际应用案例,以期为读者提供对该技术更深层次的理解和应用启示。
291 3