【AI】浅谈梯度下降算法（实战篇）

2023-02-14 271

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。目前正在学习这方面相关的内容，因此简单谈谈。

前言

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent） 是最常采用的方法之一，另一种常用的方法是最小二乘法。

在【AI】浅谈梯度下降算法（理论篇）这篇博文中，我们已经学习了梯度下降算法的一些基本概念以及理论推导，接下来，我们将通过结合代码进行实战，理论与实践相结合，加深对知识点的理解；

大家族

尽管说是梯度下降，但其实它还是个庞大的家族，就类似于编程语言有 C、Java、Python 等之分，梯度下降算法也被分为了几大类，主要的有 BGD、SGD、MBGD：

批量梯度下降法（Batch Gradient Descent） : 梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新；

优点：全局最优解，易于并行实现；

缺点：计算代价大，数据量大时，训练过程慢；
随机梯度下降法（Stochastic Gradient Descent） : 和批量梯度下降法原理类似，区别在于求梯度时，没有用所有的 $m$ 个样本的数据，而是仅仅选取一个样本 $j$ 来求梯度；

优点：训练速度快；

缺点：准确度下降，并不是全局最优，不易于并行实现；
小批量梯度下降法（Mini-batch Gradient Descent） : 小批量梯度下降法是批量梯度下降法和随机梯度下降法的折中，也就是对于 $m$ 个样本，我们采用 $x$ 个样本来迭代，$1<x<m$。一般可以取 $x=10$，当然根据样本的数据量，可以调整这个 $x$ 的值；

前两种方法的性能折中；

一维问题

例1：求的最小值

$$ f(x) = x^2 + 1 $$

使用梯度下降法求 $f(x) = x^2 + 1 \quad (-10 \leq x \leq 10)$ 的最小值

因为 $f(x) = x^2 + 1$ 是凸函数，从图中也可以一眼看出，其最小值就在 $x=0$ 处；

接下来就使用梯度下降法进行求解：

1、目标函数，即 $f(x) = x^2 + 1$ ：

def func_target(x):
    return x ** 2 + 1

2、求解梯度，即 $f(x)^{'} = 2x$ ：

def func_gradient(x):
    return x * 2

3、梯度下降算法，需要注意几个参数的意义：

x : 当前 x 的值，可以通过参数提供初始值；
learn_rate : 学习率，相当于设置的步长；
precision : 收敛精度；
max_iters : 最大迭代次数；

def SGD(x=1, learn_rate=0.1, precision=1e-5, max_iters=10000):
    for i in range(max_iters):
        grad_cur = func_gradient(x)
        if abs(grad_cur) < precision:
            break
        x = x - learn_rate * grad_cur
        print(f"第 {i+1} 次迭代: x 值为 {x}, y 值为 {func_target(x)}")
    
    print(f"\n最小值 x = {x}, y = {func_target(x)}")
    return x

if __name__ == '__main__':
    SGD(x=10, learn_rate=0.2)

例2：求的极值

通过梯度下降的方法成功求得了的最小值之后是不是信心大增呢，接下来让我们逐步加深难度：使用梯度下降法求多项式 $\frac{1}{2}[(x_1+x_2-4)^2 + (2x_1+3x_2-7)^2]$ 的极值；

在使用梯度下降求解这道题的过程中，就不得不注意到一个问题：梯度下降可能在局部最小的点收敛；

1、目标函数，即 $\frac{1}{2}[(x_1+x_2-4)^2 + (2x_1+3x_2-7)^2$ ：

def func_target(x1, x2):
    return ((x1 + x2 - 4) ** 2 + (2*x1 + 3*x2 -7) ** 2) * 0.5

2、求解梯度，即 $\frac{∂f}{∂x_1} = (x_1+x_2-4)+2(2x_1+3x_2-7)$ 和 $\frac{∂f}{∂x_2} = (x_1+x_2-4)+3(2x_1+3x_2-7)$：

def func_gradient(x1, x2):
    grad_x1 = (x1 + x2 - 4) + 2 * (2*x1 + 3*x2 -7)
    grad_x2 = (x1 + x2 - 4) + 3 * (2*x1 + 3*x2 -7)
    return grad_x1, grad_x2

3、梯度下降算法：

def SGD(x1=0, x2=0, learn_rate=0.01, precision=1e-6, max_iters=10000):
    y1 = func_target(x1, x2)
    for i in range(max_iters):
        grad_x1, grad_x2 = func_gradient(x1, x2)
        x1 = x1 - learn_rate * grad_x1
        x2 = x2 - learn_rate * grad_x2
        y2 = func_target(x1, x2)
        if (y1 - y2) < precision:
            break
        if y2 < y1: y1 = y2
        print(f"第 {i+1} 次迭代: x1 值为 {x1}, x2 值为 {x2}, 输出值为 {y2}")
    
    print(f"该多项式的极小值为 {y2}, ({x1}, {x2})")
    return x1, x2, y2

if __name__ == '__main__':
    SGD()

中间的迭代过程就省略了；

二维问题

当你通过自己的努力完成前两个例子之后，你是不是已经不满足于一维问题了呢，那么接下来我们进入二维问题：使用梯度下降法求 $f(x,y) = -e^{-(x^2+y^2)}$ 在 $[0,0]$ 处有最小值；

$$ f(x,y) = -e^{-(x^2+y^2)} $$

通过这个例子，我们会发现梯度下降的局限性，先在这里留个悬念；

1、目标函数，即 $f(x,y) = -e^{-(x^2+y^2)}$ ：

def func_target(cell):
    :param cell: 二维向量
    return -math.exp(-(cell[0] ** 2 + cell[1] ** 2))

2、求解梯度，即 $\frac{∂f}{∂x} = 2xe^{-(x^2+y^2)}$ 和 $\frac{∂f}{∂y} = 2ye^{-(x^2+y^2)}$：

def func_gradient(cell):
    :param cell: 二维向量
    grad_x = 2 * cell[0] * math.exp(-(cell[0] ** 2 + cell[1] ** 2))
    grad_y = 2 * cell[1] * math.exp(-(cell[0] ** 2 + cell[1] ** 2))
    return np.array([grad_x, grad_y])

3、梯度下降算法：

def SGD(x=np.array([0.1, 0.1]), learn_rate=0.1, precision=1e-6, max_iters=10000):
    for i in range(max_iters):
        grad_cur = func_gradient(x)
        if np.linalg.norm(grad_cur, ord=2) < precision:
            break
        x = x - learn_rate * grad_cur
        print(f"第 {i+1} 次迭代: x 值为 {x}, y 值为 {func_target(x)}")
    
    print(f"\n最小值 x = {x}, y = {func_target(x)}")
    return x

4、当 $x0$ 的初始值设为 $[1,−1]$ 时，一切都显得很正常：

5、但当我们把 $x0$ 的初始值设为 $[3,−3]$ 时，结果是出乎意料的：

梯度下降法没有找到真正的极小值点！

局限性

继续讲述上面的非预期结果：

如果仔细观察目标函数的图像，以及梯度下降法的算法原理，你就很容易发现问题所在了。在 $[3,−3]$ 处的梯度就几乎为 0 了！

由于“梯度过小”，梯度下降法可能无法确定前进的方向了。即使人为增加收敛条件中的精度，也会由于梯度过小，导致迭代中前进的步长距离过小，循环时间过长。

梯度下降法实现简单，原理也易于理解，但它有自身的局限性，因此有了后面很多算法对它的改进。

对于梯度过小的情况，梯度下降法可能难以求解。

此外，梯度下降法适合求解只有一个局部最优解的目标函数，对于存在多个局部最优解的目标函数，一般情况下梯度下降法不保证得到全局最优解（由于凸函数有个性质是只存在一个局部最优解，所有也有文献的提法是：当目标函数是凸函数时，梯度下降法的解才是全局最优解）。

由于泰勒公式的展开是近似公式，要求迭代步长要足够小，因此梯度下降法的收敛速度并非很快的。

后记

上述就是本篇博文的所有内容了，通过实战对梯度下降知识点进行巩固和加深印象，并且层层收入，希望读者能有所收获！

对于理论还不是很清楚的读者，可以回看上篇博文：【AI】浅谈梯度下降算法（理论篇）；

参考：

【AI】浅谈梯度下降算法（实战篇）

前言

大家族

一维问题

例1：求的最小值

例2：求的极值

二维问题

局限性

后记

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【AI】浅谈梯度下降算法（实战篇）

前言

大家族

一维问题

例1：求 的最小值

例2：求 的极值

二维问题

局限性

后记

热门文章

最新文章

相关课程

相关电子书

相关实验场景

例1：求的最小值

例2：求的极值