DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释（三）-阿里云开发者社区

DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释（三）

2022-12-14 545

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释（三）

Cutout

让我们更深入地研究克服相邻像素高度相关这一事实的方法。可以在区域中应用它们，而不是在每个特征图上应用伯努利遮罩。这是T. DeVries和G. W. Taylor提出的Cutout方法。

上一次以猫图像为例：该方法可以通过隐藏图像区域来进行泛化，从而限制过拟合。我们最终得到的图像是猫头掉落的地方。这迫使CNN识别描述猫的不太明显的属性。

同样在本节中没有数学。这种方法在很大程度上取决于我们的想象力：正方形区域，矩形，圆形，所有要素地图，一次或可能多次……取决于您。

Max-Drop

最后，总结本节有关CNN的过程，我必须指出，显然可以组合几种方法。当我们知道不同的方法时，这就是使我们变得强大的原因：我们可以同时利用它们的好处。这就是S. Park和N. Kwak提出的最大下降方法

这种方法在某种程度上是Pooling Dropout和Gaussian Dropout的混合。删除是在最大池化层上执行的，但是使用贝叶斯方法。

在他们的论文中，他们证明了这种方法所产生的结果与使用Spatial Dropout一样有效。除了在每次迭代中，所有神经元都保持激活这一事实之外，这还限制了训练阶段的减速。这些结果是在µ = 0.02和σ²= 0.05的条件下获得的。

RNNDrop

好吧，我们已经看到了DNN和CNN的一些Dropout方法。该研究还试图找出哪种方法对递归神经网络（RNN）可能有效。它们通常依赖于LSTM，因此我将以RNN的这种特殊情况为例。它将可以推广到其他RNN。

问题很简单：在RNN上应用dropout很危险。从某种意义上说，RNN的目的是长期保留事件的记忆。但是经典的丢弃方法效率不高，因为它们会产生噪音，从而阻止这些模型长期保持记忆。将介绍的方法可以长期保留此内存。

T. Moon等人提出的RNNDrop 。是最简单的方法。伯努利遮罩仅应用于隐藏的单元状态。但是此掩码在序列之间彼此相同。这称为Dropout的按顺序采样。这仅表示在每次迭代中我们都会创建一个随机掩码。然后从一个序列到另一个序列，此掩码保持不变。因此，放置的元素仍然保留，而当前的元素仍然存在。而这在所有序列上。

Recurrent Dropout

S. Semeniuta等人提出的递归dropout。是一个有趣的变体。单元状态保持不变。Dropout仅应用于更新单元状态的部分。因此，在每次迭代中，伯努利的遮罩都会使某些元素不再有助于长期记忆。但是内存没有改变。

Variational RNN dropout

最后，由Y. Gal和Z. Ghahramani提出的简单但有效的RNN Dropout 是在内部闸门之前应用基于序列的dropout。

Monte Carlo Dropout

仍然有很多不同的Dropout方法，但本文将在此处停止。最后，我发现了解Dropout方法不仅是正则化方法。

Dropout方法还可以提供模型不确定性的指标。对于相同的输入，遇到缺失的模型在每次迭代中将具有不同的体系结构。这导致输出差异。如果网络相当笼统，并且共同适应受到限制，那么预测将分布在整个模型中。这会导致在每次迭代中使用相同输入的情况下输出的方差较小。研究此方差可以给出可以分配给模型的置信度的概念。这可以通过Y. Gal和Z. Ghahramani方法看到。

最后，直观地，通过随机地应用丢弃，我们可以看到给定神经元进行预测的效率或效率低下。根据这一观察，我们可以通过减少参数数量同时最小化性能下降来压缩模型。K.Neklyudov等。提出了一种使用变差丢弃DNN和CNN的方法。

引用

[1] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov, Improving neural networks by preventing co-adaptation of feature detectors

[2] L. Wan, M. Zeiler, S. Zhang, Y. LeCun, and R. Fergus, Regularization of neural networks using dropconnect

[3] L. J. Ba and B. Frey, Adaptive dropout for training deep neural networks

[4] S. Wang and C. Manning, Fast dropout training

[5] D. P. Kingma, T. Salimans, and M. Welling, Variational dropout and the local reparameterization trick

[6] Y. Gal, J. Hron, A. Kendall, Concrete Dropout

[7] H. Wu and X. Gu, Towards dropout training for convolutional neural networks

[8] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler, Efficient object localization using convolutional networks

[9] T. DeVries and G. W. Taylor, Improved regularization of convolutional neural networks with cutout

[10] S. Park and N. Kwak, Analysis on the dropout effect in convolutional neural networks

[11] T. Moon, H. Choi, H. Lee, and I. Song, Rnndrop

[12] S. Semeniuta, A. Severyn, and E. Barth, Recurrent dropout without memory loss

[13] Y. Gal and Z. Ghahramani, A theoretically grounded application of dropout in recurrent neural networks

[14] Y. Gal and Z. Ghahramani, Dropout as a bayesian approximation: Representing model uncertainty in deep learning

[15] K. Neklyudov, D. Molchanov, A. Ashukha, and D. P. Vetrov, Structured bayesian pruning via log-normal multiplicative noise

[16] A. Labach, H. Salehinejad, Survey of Dropout Methods for Deep Neural Networks

DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释（三）

Cutout

Max-Drop

RNNDrop

Recurrent Dropout

Variational RNN dropout

Monte Carlo Dropout

引用

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释（三）

Cutout

Max-Drop

RNNDrop

Recurrent Dropout

Variational RNN dropout

Monte Carlo Dropout

引用

热门文章

最新文章

相关电子书