Understanding and Improving Layer Normalization | NIPS 2019 论文解读

简介: 作者们认为,前向归一化并非LN起作用的唯一因素,均值和方差也是重要原因。它们改变了后向梯度的中心和范围。同时,作者还发现,LN的参数,包括bias和gain,并非总是能够提升模型表现,甚至它们可能会增加过拟合的风险。因此,为了解决这个问题,作者们提出了自适应的LN(简称AdaNorm)。AdaNorm将LN中的bias和gain替换成线性映射函数的输出。这个函数能够自适应地根据不同的输入调整权重。作者们在七个数据集上做了实验都表明AdaNorm能够取得更好的效果。同时可以看到,AdaNorm缓解了过拟合的问题,并且给训练带来更好的收敛效果。

本文对NIPS 2019录用的论文Understanding and Improving Layer Normalization做出详细的解读,敬请批评指正。

点击下载论文

点击下载论文解读电子书

摘要:这项研究针对的是目前非常常用的技术layer normalization (LN)。LN类似于batch normalization,也是一种深度学习的归一化的技巧。LN主要作用于层的维度,一般对神经网络中间层的表示的分布进行归一化。尤其在最近大火的Transformer等模型中,LN起到非常重要的作用。然而,一直以来我们并不知道为什么LN有效。这篇文章则对LN的作用进行了研究。作者们认为,前向归一化并非LN起作用的唯一因素,均值和方差也是重要原因。它们改变了后向梯度的中心和范围。同时,作者还发现,LN的参数,包括bias和gain,并非总是能够提升模型表现,甚至它们可能会增加过拟合的风险。因此,为了解决这个问题,作者们提出了自适应的LN(简称AdaNorm)。AdaNorm将LN中的bias和gain替换成线性映射函数的输出。这个函数能够自适应地根据不同的输入调整权重。作者们在七个数据集上做了实验都表明AdaNorm能够取得更好的效果。同时可以看到,AdaNorm缓解了过拟合的问题,并且给训练带来更好的收敛效果。

一、引言

继BN之后,学术界提出了LN,针对的是RNN模型,后来科研人员发现LN对于基于自注意力的模型非常有效。典型的例子就是LN在Transformer中的大量使用。LN帮助更快地训练Transformer模型。然而,LN的成功一直是个疑问。一种解释是前向归一化提升了分布的稳定性,但最新研究则表明BN的效果和输入分布的稳定性没有关系,而是让优化的损失更加平滑。大家依然不清楚为何LN有效。

在这项工作中,作者通过分析提出了几个重要的观点,并提出了一种新的归一化的方法。作者们指出,前向归一化、以及均值和方差的导数都对LN非常重要。前向归一化并非成功的唯一因素。作者们通过一种叫DetachNorm的方法,说明了均值和方差的导数的重要性。作者们还指出,因为LN的参数,包括bias和gain,会提升过拟合的风险,它们并非总是对模型起到正向作用。实验表明,将bias和gain从LN中去掉并步总是会影响模型表现。通过对比分析不同情况下的损失函数曲线,作者们认为bias和gain会增加过拟合的风险。

因此作者们提出了AdaNorm的方法,下文将会对AdaNorm做详细的介绍。

二、Layer Normalization和相关实验数据集

LN类似于BN,可以用比较简单的式子表达:
image.png

其中的b和g则是文章中提到的bias和gain。

在这里先简单介绍一下实验用的数据集,后面的分析与之相关。本研究在5个任务上的7个数据集做了实验,其中包括机器翻译的IWSLT 14 德语英语翻译和IWSLT 15英语越南语翻译、语言模型的Enwiki8、文本分类的IMDB、RT和SST2、图片分类的MNIST以及句法分析的PTB。

三、如何理解LN

作者们采用ablation study(模型简化测试)的方式,去分析LN中每个部份的作用。下表列举了相关的实验结果:

image.png

首先从这个表不难看出,LN对于模型的重要性不可言喻,有LN的模型相比baseline有比较大的提高。然而有趣的是,去掉bias和gain并没有对模型表现造成明显的损害,甚至有的能够提升表现。这说明bias和gain并不总是带来正向的影响。作者观察模型的训练过程发现,bias和gain可能会提升过拟合的风险,结果如下图所示:

image.png

接下来作者们探讨前向归一化的作用。为了检验前向归一化,作者提出一种叫DetachNorm的方法,它让LN的均值和方差的梯度在反向传播过程中不回传,结果如下图所示:

image.png

从上述结果可以看出,前向归一化和均值方差的导数都在LN中起到重要的作用。甚至可以发现,后者的重要性更大。于是作者们接着探讨均值方差的导数,通过理论论证结合相关实验的方式说明,均值的梯度能让梯度的中心调整到0,方差的梯度则减小方差的大小。总结而言,LN将前向的输入和后向的梯度做了归一化。

四、AdaNorm

针对上述的分析,作者们提出一个新的归一化的方案,即自适应的LN。这个方法能够自适应地根据不同的输入控制权重。下面介绍一些这个方法的核心部分的内容:

image.png

其中z为AdaNorm的输出,y为归一化后的向量表示。与LN不同的是,AdaNorm用一个线性映射的函数代替了原来的bias和gain。作者又通过推导的方式指出,函数可以写为:

image.png

其中k推荐设为1/10,而C则为超参数,并且C(1-ky)的梯度不会在反向传播中回传。

作者们在上述的数据集上做了实验对比LN和AdaNorm的效果,结果如图:

image.png

上述结果表明,AdaNorm相比LN在实验中能帮助模型取得更好的表现。同时,作者展示了LN和AdaNorm的损失曲线,表明AdaNorm能够缓解过拟合的问题,如图所示:

image.png

五、总结

本篇文章主要对LN展开研究,探讨了为何LN能够有效。作者表明,LN的成功源自于前向归一化的过程以及均值方差的导数,同时表明bias和gain可能会提升过拟合的风险。针对这个问题,作者提出解决方案AdaNorm,将bias和gain修改为自适应于输入的函数,并通过实验证明它能比LN取得更好的效果。

相关文章
|
SQL Oracle 关系型数据库
FastAPI数据库系列(一) MySQL数据库操作 一、简介
FastAPI中你可以使用任何关系型数据库,可以通过SQLAlchemy将其轻松的适应于任何的数据库,比如: PostgreSQL MySQL SQLite Oracle Microsoft SQL Server ...
|
8月前
|
JavaScript 前端开发 中间件
重新定义状态管理:Zustand 如何以极简之力征服复杂应用
重新定义状态管理:Zustand 如何以极简之力征服复杂应用
380 1
|
4月前
|
机器学习/深度学习 存储 人工智能
106_模型合并:Task Arithmetic
在大语言模型(LLM)时代,模型合并技术正在成为高效整合不同模型能力的关键方法。随着开源模型的爆发式增长,如何在不进行昂贵的重新训练的情况下,将多个专用模型的知识整合到一个统一模型中,成为了研究和工业界的重要课题。Task Arithmetic作为一种新兴的模型合并方法,通过向量操作实现权重融合,为这一挑战提供了创新解决方案。
|
机器学习/深度学习 自然语言处理 PyTorch
Transformers入门指南:从零开始理解Transformer模型
【10月更文挑战第29天】作为一名机器学习爱好者,我深知在自然语言处理(NLP)领域,Transformer模型的重要性。自从2017年Google的研究团队提出Transformer以来,它迅速成为NLP领域的主流模型,广泛应用于机器翻译、文本生成、情感分析等多个任务。本文旨在为初学者提供一个全面的Transformers入门指南,介绍Transformer模型的基本概念、结构组成及其相对于传统RNN和CNN模型的优势。
13262 1
|
9月前
|
前端开发 开发工具
鸿蒙开发:那些常用的资源管理方法
熟练的使用资源管理,可以极大的提高我们的开发效率,不仅仅在一些组件中使用到,更多的是在一些三方的sdk中,由于定义的类型单一,为了项目的可维护,资源管理的使用也是非常的常见的。
223 5
鸿蒙开发:那些常用的资源管理方法
|
机器学习/深度学习 数据可视化
FredNormer: 非平稳时间序列预测的频域正则化方法
FredNormer是一种创新的频域正则化方法,旨在提高时间序列预测模型处理非平稳数据的能力。现有正则化技术虽在分布偏移上有所成效,但在频域动态模式捕捉方面存在不足。FredNormer通过自适应增强关键频率分量的权重,解决了这一问题,并设计了即插即用模块,便于集成到各类预测模型中。实验表明,FredNormer在多个公共数据集上显著提升了预测精度,特别是在复杂频率特征的数据集上效果显著。此外,其计算效率也优于现有方法。该方法为非平稳时间序列预测提供了有力工具。
350 3
FredNormer: 非平稳时间序列预测的频域正则化方法
|
机器学习/深度学习 人工智能 数据可视化
何恺明CV课程 | AI大咖说
麻省理工学院(MIT)电气工程与计算机科学系(EECS)副教授何恺明开设了两门精彩课程:“Advance in Computer Vision”和“Deep Generative Models”。何恺明是计算机视觉和深度学习领域的杰出科学家,曾提出深度残差网络(ResNet)等重要成果。这两门课程不仅涵盖了最新的研究前沿,还由何恺明亲自授课,内容涉及卷积神经网络、生成对抗网络、变分自编码器等,是学习计算机视觉和生成模型的宝贵资源。
665 8
|
网络协议 安全 Linux
Linux中无法连接互联网或局域网
【10月更文挑战第5天】
2301 3
|
自然语言处理
掩码语言模型(MLM)
掩码语言模型(MLM)

热门文章

最新文章