Pytorch基本使用——优化器

简介: 总结了两种优化器,SGD和Adam及变种AdamW

🎏目录

🎈1 SGD
🎄1.1 原理
🎄1.2 构造
🎄1.3 参数详解——momentum

🎈2 Adam及AdamW
🎄2.1 更新规则
🎄2.2 理解一阶估计变量m和二阶估计变量v及探讨Adam如何利用的它们
🎄2.3 AdamW

✨1 SGD

损失函数是用来度量模型输出和真实值的偏差,损失函数越小,说明我们的模型效果越好,所以我们需要不停的最小化这个函数。如果损失函数是一个凸函数,求得最小值还是比较简单的,直接求导就可以。但是复杂的深度学习网络一般是一个非凸函数,很难直接求导,所以优化算法就是在这种情况下用来最小化损失函数。SGD是随机梯度下降,优化算法的一种。

🥚1.1 原理

SGD为随机梯度下降,原理可看刘建平老师博客

🎃 1.2 构造

构造:

class torch.optim.SGD(
  params, 
  lr, 
  momentum=0, 
  dampening=0, 
  weight_decay=0, 
  nesterov=False
)

参数:

  1. params:需要优化的参数
  2. lr:float, 学习率
  3. momentum:float,动量因子
  4. dampening:float,动量的抑制因子
  5. weight_decay:float,权重衰减
  6. nesterov:bool,是否使用Nesterov动量

🎉 1.3 参数详解——momentum

一般随机梯度下降时,每次更新公式都是:

而增加动量后,公式是:

即在原值乘一个动量因子momentum(0<momentum<1),起到减速作用:

以一个例子说明,假设现梯度为5,经历两次梯度变化分别是-2和+3,momuntu=0.9。
传统下经历两次梯度变化,最终梯度应该是5=》3=》6
使用momentum后本次梯度应该是5=》3=》0.9*3+3=5.7。局部上第二次梯度变化虽然仍是+3,但是由于使用了momuntu,整体上看是+2.7,起到一个减速作用。

✨ 2 Adam及AdamW

Adam结合了动量法和RMSProp算法的思想,通过计算梯度的一阶矩估计和二阶矩估计,自适应地调整学习率,从而实现更高效的参数更新。

🎄 2.1 更新规则


这里一阶矩估计变量m是Adam优化器中用来追踪梯度的一阶矩(均值)的变量。它类似于动量法中的动量变量,用于存储梯度的平均方向
二阶矩估计变量v是Adam优化器中用来追踪梯度的二阶矩(方差)的变量。它类似于RMSProp算法中的平方梯度累积变量,用于衡量梯度的变化情况
看到这里会有一些疑问,一阶矩估计变量m和二阶矩估计变量v如何理解,为什么通过他们调整学习率?

⛱️ 2.2 理解一阶估计变量m和二阶估计变量v及探讨Adam如何利用的它们

一阶估计变量m表示对梯度的一阶矩估计,它类似于梯度的平均值,即E(g)。

  1. 当|m|很大时,说明过往梯度与当前梯度很少有正负抵消,即说明过往梯度与当前梯度一般会同号,导致求出的过往梯度与当前梯度的期望绝对值大。
  2. 当|m|很小时,说明过往的大部分梯度以及当前梯度一般不同号,正负相抵。

二阶估计变量v表示对梯度的二阶矩估计,它类似于梯度的方差,即E(g^2)。

  1. 当v很大,由于g^2为非负数,说明过往大部分的梯度与当前梯度的绝对值都比较大。
  2. 当v很小,说明过往大部分的梯度与当前梯度的绝对值都比较小。

因此一共四种组合情况:

🌭 2.3 AdamW

AdamW对Adam中正则化项做了优化。不同于Adam采用L2正则化,AdamW将正则化项的梯度加入到反向传播公式中。如下图所示:
图片来源:https://www.cnblogs.com/tfknight/p/13425532.html

(如果是Adam则无绿色一项,如果是AdamW则无粉色一项)
总结来说效果上AdamW采用的权重衰减和L2正则化得到的效果相同,但是AdamW直接将梯度加到反向传播公式中而不是加在损失函数上,因此效率更高

相关文章
|
机器学习/深度学习 数据可视化 PyTorch
【PyTorch】TensorBoard基本使用
【PyTorch】TensorBoard基本使用
250 0
|
机器学习/深度学习 缓存 监控
Pytorch学习笔记(7):优化器、学习率及调整策略、动量
Pytorch学习笔记(7):优化器、学习率及调整策略、动量
1015 0
Pytorch学习笔记(7):优化器、学习率及调整策略、动量
|
2月前
|
机器学习/深度学习 算法 数据可视化
如果你的PyTorch优化器效果欠佳,试试这4种深度学习中的高级优化技术吧
在深度学习领域,优化器的选择对模型性能至关重要。尽管PyTorch中的标准优化器如SGD、Adam和AdamW被广泛应用,但在某些复杂优化问题中,这些方法未必是最优选择。本文介绍了四种高级优化技术:序列最小二乘规划(SLSQP)、粒子群优化(PSO)、协方差矩阵自适应进化策略(CMA-ES)和模拟退火(SA)。这些方法具备无梯度优化、仅需前向传播及全局优化能力等优点,尤其适合非可微操作和参数数量较少的情况。通过实验对比发现,对于特定问题,非传统优化方法可能比标准梯度下降算法表现更好。文章详细描述了这些优化技术的实现过程及结果分析,并提出了未来的研究方向。
33 1
|
7月前
|
机器学习/深度学习 监控 PyTorch
PyTorch模型训练:优化器与损失函数的选择
【4月更文挑战第17天】PyTorch中的优化器(如SGD, Adam, RMSprop)和损失函数(如MSE Loss, Cross Entropy Loss)对模型训练效果有显著影响。优化器选择应基于任务复杂度和数据规模,SGD适合简单任务,而Adam和RMSprop适用于复杂情况。损失函数选择依赖于任务类型,MSE Loss用于回归,Cross Entropy Loss用于分类。实践中,应尝试不同组合,调整学习率,监控训练过程,并使用验证集优化模型。
|
7月前
|
机器学习/深度学习 传感器 算法
PyTorch基础之优化器模块、训练和测试模块讲解(附源码)
PyTorch基础之优化器模块、训练和测试模块讲解(附源码)
156 0
|
PyTorch 算法框架/工具
【PyTorch】Optim 优化器
【PyTorch】Optim 优化器
77 0
|
PyTorch 算法框架/工具 Python
【PyTorch】Transforms基本使用
【PyTorch】Transforms基本使用
91 0
|
机器学习/深度学习 PyTorch Serverless
Pytorch基本使用—参数初始化
使用Pytorch进行参数初始化教程,重点是Xavier
251 0