深度学习相关概念:权重初始化

简介: 权重初始化(weight initialization)又称参数初始化,在深度学习模型训练过程的本质是对weight(即参数 W)进行更新,但是在最开始训练的时候是无法更新的,这需要每个参数有相应的初始值。在进行权重初始化后,神经网络就可以对权重参数w不停地迭代更新,以达到较好的性能

 权重初始化(weight initialization)又称参数初始化,在深度学习模型训练过程的本质是对weight(即参数 W)进行更新,但是在最开始训练的时候是无法更新的,这需要每个参数有相应的初始值。在进行权重初始化后,神经网络就可以对权重参数w不停地迭代更新,以达到较好的性能。


1.全零初始化(×)


 全零初始化是我们要避免的,它无法训练网络。因为全零初始化后,神经网络训练时,在反向传播时梯度相同,参数更新大学也一样,最后会出现输出层两个权值相同,隐层神经元参数相同,也就是说神经网络失去了特征学习的能力。通俗点说,把神经网络比作你在爬山,但身处直线形的山谷中,两边是对称的山峰。如果全零初始化,由于对称性,你所在之处的梯度只能沿着山谷的方向,不会指向山峰;你走了一步之后,情况依然不变。结果就是你只能收敛到山谷中的一个极大值,而走不到山峰上去。


2.随机初始化


2.1 高斯分布/均匀分布


 实验网络结构:10个隐层,1个输出层,每个隐层包含500个神经元,使用的双曲正切激活函数(tanh)。


2.1.1权重较小—N ( 0 , 0.01 )


51e865053e0848ab877c549a333e30f8.png

7846f38482bc49a5bae06348c85a661d.png


 除了前两层,后续所有层的激活值为0;此时,输入信息传递不到输出层;最终,网络得不到训练。小权重高斯初始化(小型网络中很常见),然而当网络越来越深的时候,会出现梯度消失的情况。


2.1.1权重较大—N ( 0 , 1 )


25a5a09608954ade8236967ca29be148.png


c0c466c08103454cb2d70d851ae6780d.png


几乎所有的神经元都饱和了(不是-1就是1);前向传播时,神经元要么被抑制(0),要么被饱和(1)。此时,神经元局部梯度都是零,网络没有反向梯度流(梯度消失);最终,所有的参数得不到更新。


2.1.3存在问题:


 随机初始化其实很难的,尝试太小的值,信息传不过去(2.1.1中权重分布都在0),值太大的时候梯度信息传递过去了,他们又进入了饱和区,梯度缺变成了0(2.1.2中权重不是1就是-1),虽然能让我的梯度传过来的每个成员的这个算的结果不一样,得出来的更新全值不一样但是很多时候能更新的机会都没有。在2.1.1的前项传播中,信息流消失;在2.1.2的反向传播中的梯度消失了,网络是没法训练的。


 那到底怎么应该初始化呢?


有效的初始化方法:使网络各层的激活值和局部梯度方差在传播过程中尽量保持一致;以保持网络中正向和反向数据流动。


2.2 Xavier初始化


2.2.1 原理


 假设一个神经元, 其输入为 z 1 , z 2 , ⋯ z N , 这 N个输入是独立同分布的; 其权值为 w 1 , … … , w N  , 它们也是独立同分布的,且 w与 z 是独立的; 其激活函数为 f 其最终输出 y的表达式:


y = f ( w 1 ∗ z 1 + ⋯ + w N ∗ z N )


 基本思想: 使网络各层的激活值和局部梯度的方差在传 播过程中尽量保持一致, 即寻找 w的分布使得输 出 y 与输入 z 的方差一致.


 假设 f 为双曲正切函数, w 1 , … … , w N  独立同分布, z 1 ,  ⋯ ,z N 独立同 分布, 随机变量w与 z zz 独立, 且均值都为 0 , 则有:


image.png


 当且仅当var ⁡ ( w ) = 1 / N  时, y的方差与 z 的方差一致。因此我们可以采用N ( 0 , 1 / N ) 的高斯分布,为输入神经元个数。


2.2.2 N ( 0 , 1 / N ) 高斯分布


 Xavier初始化可以帮助减少梯度消失的问题,使得信号在神经网络中可以传递得更深,在经过多层神经元后保持在合理的范围。每层神经元激活值的方差基本相同。符合正态分布,这样前向的信息流可以传递,反向传播梯度也可以更新。


47332d2ef42a4ec28f9a2bc09e548ed3.png


2.2.3 Xavier初始化局限性


 Xavier初始化能够很好的 tanh 激活函数。但是对于目前最常用的 ReLU 激活函数,Xavier初始化表现的很差。


20d04507466946a39ccb788f96198aaa.png


 在较浅的层中效果还不错,但是随着神经网络层数的增加,权重趋势却是越来越接近0。


 那如何解决ReLU激活函数的初始化?


 采用恺明初始化(He 初始化)


2.3 He 初始化(MSRA)


 He 初始化(MSRA)与Xavier初始化不同在哪里?


 Xavier初始化采用的是N ( 0 , 1 / N )高斯分布,He 初始化(MSRA)采用的是N ( 0 , 2 / N ) 高斯分布。


 He 初始化(MSRA)原理:


 在ReLU网络中,假定每一层有一半的神经元被激活,另一半为0(x负半轴中是不激活的),所以要保持variance不变,只需要在Xavier的基础上再除以2:


6d99ec3c960441b1a25efbb32a781faa.png


3.权重初始化总结


1.好的初始化方法可以防止前向传播过程中的信息消失,也可以解决反向传递过程中的梯度消失


2.激活函数选择双曲正切或者Sigmoid时,建议使用Xaizer初始化方法。


3.激活函数选择ReLU或Leakly ReLU时,推荐使用He初始化方法。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
深度学习算法概念介绍
深度学习算法概念介绍
|
10月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
538 0
|
机器学习/深度学习 算法 安全
从方向导数到梯度:深度学习中的关键数学概念详解
方向导数衡量函数在特定方向上的变化率,其值可通过梯度与方向向量的点积或构造辅助函数求得。梯度则是由偏导数组成的向量,指向函数值增长最快的方向,其模长等于最速上升方向上的方向导数。这两者的关系在多维函数分析中至关重要,广泛应用于优化算法等领域。
1386 36
从方向导数到梯度:深度学习中的关键数学概念详解
|
机器学习/深度学习 算法 数据可视化
【从零开始学习深度学习】46. 目标检测中锚框的概念、计算方法、样本锚框标注方式及如何选取预测边界框
【从零开始学习深度学习】46. 目标检测中锚框的概念、计算方法、样本锚框标注方式及如何选取预测边界框
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
517 8
|
机器学习/深度学习 自然语言处理 算法
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
7211 0
|
机器学习/深度学习 分布式计算 数据可视化
对深度学习概念的基础理解与认识
一、神经网络的组成 人工神经网络(Artificial Neural Networks,简写为ANNs)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。 这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。神经网络类型众多,其中最为重要的是多层感知机。为了详细地描述神经网络,我们先从最简单的神经网络说起。 感知机 感知机是1957年,由Rosenblatt提出会,是神经网络和支持向量机的基础。 感知机是有生物学上的一个启发,他的参照对象和理论依据可以参照下图:(我们的大脑可以认为是一个神经网络,
383 9
对深度学习概念的基础理解与认识
|
机器学习/深度学习 数据采集 自然语言处理
通过深度学习实践来理解深度学习的核心概念
通过实践,不仅可以加深对深度学习概念的理解,还能发现理论与实际之间的差距,进而对模型进行改进和优化。实践中遇到的问题(如梯度消失、过拟合、训练效率低等)能促使你深入思考,进而更加全面地掌握深度学习的核心概念。
207 4
|
机器学习/深度学习 人工智能 并行计算
现代深度学习框架构建问题之线性代数的常见概念定义如何解决
现代深度学习框架构建问题之线性代数的常见概念定义如何解决
159 3
|
机器学习/深度学习 自然语言处理 算法
深度学习的关键概念和网络结构
度学习是人工智能和机器学习的一个重要分支,它通过模拟人脑神经元的工作方式来处理复杂的模式识别和数据分析任务。深度学习已经在许多领域取得了显著的成果,如图像识别、语音识别和自然语言处理。
475 1

热门文章

最新文章