训练深度神经网络的时候需要注意的一些小技巧-阿里云开发者社区

训练深度神经网络的时候需要注意的一些小技巧

2017-11-12 964

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1、准备数据：务必保证有大量、高质量并且带有干净标签的数据，没有如此的数据，学习是不可能的

2、预处理：这个不多说，就是0均值和1方差化

3、minibatch：建议值128,1最好，但是效率不高，但是千万不要用过大的数值，否则很容易过拟合

4、梯度归一化：其实就是计算出来梯度之后，要除以minibatch的数量。这个不多解释

5、下面主要集中说下学习率

总的来说是用一个一般的学习率开始，然后逐渐的减小它

一个建议值是0.1，适用于很多NN的问题，一般倾向于小一点。

一个对于调度学习率的建议：如果在验证集上性能不再增加就让学习率除以2或者5，然后继续，学习率会一直变得很小，到最后就可以停止训练了。

很多人用的一个设计学习率的原则就是监测一个比率（每次更新梯度的norm除以当前weight的norm），如果这个比率在10-3附近，如果小于这个值，学习会很慢，如果大于这个值，那么学习很不稳定，由此会带来失败。

6、使用验证集，可以知道什么时候开始降低学习率，和什么时候停止训练。

7、关于对weight初始化的选择的一些建议：

如果你很懒，直接用0.02*randn(num_params)来初始化，当然别的值你也可以去尝试

如果上面那个不太好使，那么久依次初始化每一个weight矩阵用init_scale / sqrt(layer_width) * randn,init_scale可以被设置为0.1或者1

初始化参数对结果的影响至关重要，要引起重视。

在深度网络中，随机初始化权重，使用SGD的话一般处理的都不好，这是因为初始化的权重太小了。这种情况下对于浅层网络有效，但是当足够深的时候就不行了，因为weight更新的时候，是靠很多weight相乘的，越乘越小，有点类似梯度消失的意思（这句话是我加的）

8、如果训练RNN或者LSTM，务必保证gradient的norm被约束在15或者5（前提还是要先归一化gradient），这一点在RNN和LSTM中很重要。

9、检查下梯度，如果是你自己计算的梯度。

10、如果使用LSTM来解决长时依赖的问题，记得初始化bias的时候要大一点

12、尽可能想办法多的扩增训练数据，如果使用的是图像数据，不妨对图像做一点扭转啊之类的，来扩充数据训练集合。

13、使用dropout

14、评价最终结果的时候，多做几次，然后平均一下他们的结果。

本文转自 stock0991 51CTO博客，原文链接:http://blog.51cto.com/qing0991/1825373

训练深度神经网络的时候需要注意的一些小技巧

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

训练深度神经网络的时候需要注意的一些小技巧

热门文章

最新文章

相关课程

相关电子书

相关实验场景