DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(三)

简介: DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(三)

Cutout

image.png

让我们更深入地研究克服相邻像素高度相关这一事实的方法。可以在区域中应用它们,而不是在每个特征图上应用伯努利遮罩。这是T. DeVries和G. W. Taylor提出的Cutout方法。

上一次以猫图像为例:该方法可以通过隐藏图像区域来进行泛化,从而限制过拟合。我们最终得到的图像是猫头掉落的地方。这迫使CNN识别描述猫的不太明显的属性。

同样在本节中没有数学。这种方法在很大程度上取决于我们的想象力:正方形区域,矩形,圆形,所有要素地图,一次或可能多次……取决于您。

Max-Drop

最后,总结本节有关CNN的过程,我必须指出,显然可以组合几种方法。当我们知道不同的方法时,这就是使我们变得强大的原因:我们可以同时利用它们的好处。这就是S. Park和N. Kwak提出的最大下降方法

image.png

这种方法在某种程度上是Pooling Dropout和Gaussian Dropout的混合。删除是在最大池化层上执行的,但是使用贝叶斯方法。

image.png

在他们的论文中,他们证明了这种方法所产生的结果与使用Spatial Dropout一样有效。除了在每次迭代中,所有神经元都保持激活这一事实之外,这还限制了训练阶段的减速。这些结果是在µ = 0.02和σ²= 0.05的条件下获得的。

RNNDrop

image.png

好吧,我们已经看到了DNN和CNN的一些Dropout方法。该研究还试图找出哪种方法对递归神经网络(RNN)可能有效。它们通常依赖于LSTM,因此我将以RNN的这种特殊情况为例。它将可以推广到其他RNN。

问题很简单:在RNN上应用dropout很危险。从某种意义上说,RNN的目的是长期保留事件的记忆。但是经典的丢弃方法效率不高,因为它们会产生噪音,从而阻止这些模型长期保持记忆。将介绍的方法可以长期保留此内存。

image.png


T. Moon等人提出的RNNDrop 。是最简单的方法。伯努利遮罩仅应用于隐藏的单元状态。但是此掩码在序列之间彼此相同。这称为Dropout的按顺序采样。这仅表示在每次迭代中我们都会创建一个随机掩码。然后从一个序列到另一个序列,此掩码保持不变。因此,放置的元素仍然保留,而当前的元素仍然存在。而这在所有序列上。

Recurrent Dropout

image.png


S. Semeniuta等人提出的递归dropout。是一个有趣的变体。单元状态保持不变。Dropout仅应用于更新单元状态的部分。因此,在每次迭代中,伯努利的遮罩都会使某些元素不再有助于长期记忆。但是内存没有改变。

Variational RNN dropout

image.png


最后,由Y. Gal和Z. Ghahramani提出的简单但有效的RNN Dropout 是在内部闸门之前应用基于序列的dropout。

Monte Carlo Dropout

仍然有很多不同的Dropout方法,但本文将在此处停止。最后,我发现了解Dropout方法不仅是正则化方法。

image.png

Dropout方法还可以提供模型不确定性的指标。 对于相同的输入,遇到缺失的模型在每次迭代中将具有不同的体系结构。这导致输出差异。如果网络相当笼统,并且共同适应受到限制,那么预测将分布在整个模型中。这会导致在每次迭代中使用相同输入的情况下输出的方差较小。研究此方差可以给出可以分配给模型的置信度的概念。这可以通过Y. Gal和Z. Ghahramani方法看到。

最后,直观地,通过随机地应用丢弃,我们可以看到给定神经元进行预测的效率或效率低下。根据这一观察,我们可以通过减少参数数量同时最小化性能下降来压缩模型。K.Neklyudov等。提出了一种使用变差丢弃DNN和CNN的方法。

引用

[1] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov, Improving neural networks by preventing co-adaptation of feature detectors

[2] L. Wan, M. Zeiler, S. Zhang, Y. LeCun, and R. Fergus, Regularization of neural networks using dropconnect

[3] L. J. Ba and B. Frey, Adaptive dropout for training deep neural networks

[4] S. Wang and C. Manning, Fast dropout training

[5] D. P. Kingma, T. Salimans, and M. Welling, Variational dropout and the local reparameterization trick

[6] Y. Gal, J. Hron, A. Kendall, Concrete Dropout

[7] H. Wu and X. Gu, Towards dropout training for convolutional neural networks

[8] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler, Efficient object localization using convolutional networks

[9] T. DeVries and G. W. Taylor, Improved regularization of convolutional neural networks with cutout

[10] S. Park and N. Kwak, Analysis on the dropout effect in convolutional neural networks

[11] T. Moon, H. Choi, H. Lee, and I. Song, Rnndrop

[12] S. Semeniuta, A. Severyn, and E. Barth, Recurrent dropout without memory loss

[13] Y. Gal and Z. Ghahramani, A theoretically grounded application of dropout in recurrent neural networks

[14] Y. Gal and Z. Ghahramani, Dropout as a bayesian approximation: Representing model uncertainty in deep learning

[15] K. Neklyudov, D. Molchanov, A. Ashukha, and D. P. Vetrov, Structured bayesian pruning via log-normal multiplicative noise

[16] A. Labach, H. Salehinejad, Survey of Dropout Methods for Deep Neural Networks

目录
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
21_RNN与LSTM:序列建模的经典方法
在自然语言处理领域,处理序列数据是一个核心挑战。传统的机器学习方法难以捕捉序列中的时序依赖关系,而循环神经网络(Recurrent Neural Network,RNN)及其变种长短期记忆网络(Long Short-Term Memory,LSTM)通过其独特的循环结构,为序列建模提供了强大的解决方案。本教程将深入探讨RNN和LSTM的原理、实现方法和最新应用,帮助读者全面掌握这一NLP核心技术。
|
6月前
|
机器学习/深度学习 数据采集 算法
【CNN-BiLSTM-attention】基于高斯混合模型聚类的风电场短期功率预测方法(Python&matlab代码实现)
【CNN-BiLSTM-attention】基于高斯混合模型聚类的风电场短期功率预测方法(Python&matlab代码实现)
374 4
|
机器学习/深度学习 人工智能 自然语言处理
卷积神经网络(CNN):视觉识别的革命先锋
卷积神经网络(CNN)作为人工智能领域的一颗璀璨明珠,在计算机视觉中发挥着核心作用。CNN的发展历程展现了从生物学灵感到技术创新的转变,历经LeNet-5至AlexNet、VGGNet、ResNet等里程碑式的进步。其独特结构包括卷积层、池化层及全连接层,能够层层递进地提取特征并作出决策。CNN不仅在图像分类、目标检测等领域表现卓越,还在人脸识别、医学影像分析等方面展现出巨大潜力。尽管存在局限性,如对序列数据处理能力有限及解释性问题,但通过引入注意力机制、自监督学习等方法,CNN将持续演进,引领人工智能技术走向更加精彩的未来。
1075 2
|
机器学习/深度学习 自然语言处理 算法
基于卷积神经网络(CNN)的垃圾邮件过滤方法
传统的垃圾邮件过滤手段如规则匹配常因垃圾邮件的多变而失效。基于深度学习的方法,特别是卷积神经网络(CNN),能自动学习邮件中的复杂特征,有效识别垃圾邮件的新形态。CNN通过特征学习、处理复杂结构、良好的泛化能力和适应性,以及高效处理大数据的能力,显著提升了过滤精度。在文本分类任务中,CNN通过卷积层提取局部特征,池化层减少维度,全连接层进行分类,特别适合捕捉文本的局部模式和顺序信息,从而构建高效的垃圾邮件过滤系统。
1088 0
|
机器学习/深度学习 数据采集 数据可视化
SARIMA,神经网络,RNN-LSTM,SARIMA和RNN组合方法预测COVID-19每日新增病例
SARIMA,神经网络,RNN-LSTM,SARIMA和RNN组合方法预测COVID-19每日新增病例
|
机器学习/深度学习 PyTorch 算法框架/工具
探索未来的视觉革命:卷积神经网络的崭新时代(二)
探索未来的视觉革命:卷积神经网络的崭新时代(二)
探索未来的视觉革命:卷积神经网络的崭新时代(二)
|
机器学习/深度学习 自然语言处理 计算机视觉
探索未来的视觉革命:卷积神经网络的崭新时代(一)
探索未来的视觉革命:卷积神经网络的崭新时代(一)
探索未来的视觉革命:卷积神经网络的崭新时代(一)
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 算法 TensorFlow
【视频】神经网络正则化方法防过拟合和R语言CNN分类手写数字图像数据MNIST|数据分享
【视频】神经网络正则化方法防过拟合和R语言CNN分类手写数字图像数据MNIST|数据分享
|
机器学习/深度学习 存储 算法
6 种 卷积神经网络压缩方法
6 种 卷积神经网络压缩方法
230 0

热门文章

最新文章