深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决

简介: 学习率是深度学习中的关键超参数,它影响模型的训练进度和收敛性,过大或过小的学习率都会对网络训练产生负面影响,需要通过适当的设置和调整策略来优化。

1.学习率的作用

学习率 (learning rate),作为监督学习以及深度学习中重要的超参,它控制网络模型的学习进度,决定这网络能否成功或者需要多久成功找到全局最小值,从而得到全局最优解,也就是最优参数。换句话说学习率和stride(步长)性质差不多。

2.学习率太大有何影响

首先我们要认识到学习率过大,自然第一反应就是学习的速度或者说忽略了某些阶段直接学到了下一个阶段的东西,这对于计算机来说是不可取的,特别是用于神经网络之中。这就好比在网络模型中我们所需要的最佳的值是50,如果我们学习率正好设置的是50,初始值为0,那么我们可以一步到位,若是设置的是10,多走几步依然可到,但是如果设置的是100,那我们就会直接跳过了50,也就是说忽略了最佳的结果。
那么学习率设置太大会造成网络不能收敛,在最优值附近徘徊,也就是说直接跳过最低的地方跳到对称轴另一边,从而忽视了找到最优值的位置。如下图

在这里插入图片描述

3.学习率太小有何影响

如果学习率设置太小,网络收敛非常缓慢,会增大找到最优值的时间,也就是说从山坡上像蜗牛一样慢慢地爬下去。虽然设置非常小的学习率是可以到达,但是这很可能会进入局部极值点就收敛,没有真正找到的最优解,换句话说就是它步长太小,跨不出这个坑。

在这里插入图片描述

4.如何进行学习率设置

在训练过程中,一般根据训练轮数设置动态变化的学习率。

刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
一定轮数过后:逐渐减缓。
接近训练结束:学习速率的衰减应该在100倍以上。
如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤0.0001) 在新数据上进行微调 。

5.学习率缓减机制

  • 方法1.每N轮学习率减半(学习率按训练轮数增长指数差值递减):

在这里插入图片描述

  • 方法2.最常用的是指数衰减,也是最为有效的。tensorflow中的表达式为:
    decayed_lr =lr0*(decay_rate^(global_steps/decay_steps)
    参数解释:
    decayed_lr:衰减后的学习率,也就是当前训练不使用的真实学习率
    lr0: 初始学习率
    decay_rate: 衰减率,每次衰减的比例
    global_steps:当前训练步数
    decay_steps:衰减步数,每隔多少步衰减一次。

方法二中tensorflow对应API:

global_step = tf.Variable(0)
lr = tf.train.exponential_decay(
     lr0,
     global_step,
     decay_steps=lr_step,
     decay_rate=lr_decay,
     staircase=True)

staircase=True 参数是说 global_steps/decay_steps 取整更新,也就是能做到每隔decay_steps学习率更新一次。

  • 方法3.通过引入BN层来解决,由于BN层(也叫归一化层)它可以防止网络中间层在训练过程中国,数据分别发生改变,它和卷积、池化都属于网络层的一种。一般是在网络每一层输入的时候插入一个BN层(归一化为均值为0,方差为1),然后在进入下一层。有了它现在我们可以采用初始很大的学习率,然后学习率的衰减速度也很大,因为BN算法收敛很快。当然这个算法即使你选择了较小的学习率,也比以前的收敛速度快,因为它具有快速训练收敛的特性;
目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第7天】本文将深入探讨卷积神经网络(CNN)的基本原理,以及它如何在图像识别领域中大放异彩。我们将从CNN的核心组件出发,逐步解析其工作原理,并通过一个实际的代码示例,展示如何利用Python和深度学习框架实现一个简单的图像分类模型。文章旨在为初学者提供一个清晰的入门路径,同时为有经验的开发者提供一些深入理解的视角。
|
2天前
|
机器学习/深度学习 vr&ar
深度学习笔记(十):深度学习评估指标
关于深度学习评估指标的全面介绍,涵盖了专业术语解释、一级和二级指标,以及各种深度学习模型的性能评估方法。
7 0
深度学习笔记(十):深度学习评估指标
|
2天前
|
机器学习/深度学习 Python
深度学习笔记(九):神经网络剪枝(Neural Network Pruning)详细介绍
神经网络剪枝是一种通过移除不重要的权重来减小模型大小并提高效率的技术,同时尽量保持模型性能。
8 0
深度学习笔记(九):神经网络剪枝(Neural Network Pruning)详细介绍
|
1天前
|
机器学习/深度学习 编解码 计算机视觉
深度学习笔记(十一):各种特征金字塔合集
这篇文章详细介绍了特征金字塔网络(FPN)及其变体PAN和BiFPN在深度学习目标检测中的应用,包括它们的结构、特点和代码实现。
5 0
|
2天前
|
机器学习/深度学习 数据可视化 Windows
深度学习笔记(七):如何用Mxnet来将神经网络可视化
这篇文章介绍了如何使用Mxnet框架来实现神经网络的可视化,包括环境依赖的安装、具体的代码实现以及运行结果的展示。
9 0
|
2天前
|
机器学习/深度学习 Python
深度学习笔记(六):如何运用梯度下降法来解决线性回归问题
这篇文章介绍了如何使用梯度下降法解决线性回归问题,包括梯度下降法的原理、线性回归的基本概念和具体的Python代码实现。
10 0
|
3天前
|
机器学习/深度学习 边缘计算 人工智能
探讨深度学习在图像识别中的应用及优化策略
【10月更文挑战第5天】探讨深度学习在图像识别中的应用及优化策略
14 1
|
8天前
|
机器学习/深度学习 人工智能 数据可视化
深度学习在图像识别中的应用与挑战
本文将深入探讨深度学习技术在图像识别领域的应用,并揭示其背后的原理和面临的挑战。我们将通过代码示例来展示如何利用深度学习进行图像识别,并讨论可能遇到的问题和解决方案。
33 3
|
3天前
|
机器学习/深度学习 存储 数据处理
深度学习在图像识别中的应用与挑战
【10月更文挑战第5天】 本文旨在探讨深度学习技术在图像识别领域的应用及其所面临的挑战。随着深度学习技术的飞速发展,其在图像识别中的应用日益广泛,不仅推动了相关技术的革新,也带来了新的挑战。本文首先介绍了深度学习的基本原理和常见模型,然后详细探讨了卷积神经网络(CNN)在图像识别中的具体应用,包括图像分类、目标检测等任务。接着,分析了当前深度学习在图像识别中面临的主要挑战,如数据标注问题、模型泛化能力、计算资源需求等。最后,提出了一些应对这些挑战的可能方向和策略。通过综合分析,本文希望为深度学习在图像识别领域的进一步研究和应用提供参考和启示。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在图像识别中的应用与挑战
【10月更文挑战第5天】本文将深入探讨深度学习技术在图像识别领域的应用和面临的挑战。我们将从基础的神经网络模型出发,逐步介绍卷积神经网络(CNN)的原理和结构,并通过代码示例展示其在图像分类任务中的实际应用。同时,我们也将讨论深度学习在图像识别中遇到的一些常见问题和解决方案,以及未来的发展方向。
14 4

热门文章

最新文章