【AI大模型面试宝典系列】从面试高频考点到核心原理拆解，从实战代码到避坑指南，帮你吃透大模型面试的每一个得分点！后续会逐个攻破面试核心模块：基础概念、架构细节、项目实操、行业题套路…… 每篇聚焦一个必考点，既能快速补短板，也能精准练重点 —— 想搞定大模型面试、无痛拿下offer？这系列直接码住！

🎮 强化学习

概述
强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过智能体（Agent）与环境（Environment）交互来学习策略（Policy），使得在不同状态（State）下采取的动作（Action）能够最大化累积奖励（Reward）。强化学习的核心思想是试错学习（Trial-and-Error Learning）和延迟奖励（Delayed Reward）。
强化学习有几个关键概念：
智能体（Agent）：做出决策的实体，它与环境进行交互。
环境（Environment）：智能体所处的外部系统，智能体的行动会影响环境的状态，环境会根据智能体的行为给予反馈。
状态（State）：环境在某一时刻的情况或配置，智能体基于这些状态做出决策。
动作（Action）：智能体在特定状态下可以采取的行为。
奖励（Reward）：智能体采取某个动作后，从环境中获得的反馈，奖励可以是正面的（促进目标的实现）或负面的（阻碍目标的实现）。
策略（Policy）：智能体在给定状态下选择动作的规则或函数，策略可以是确定性的也可以是随机的。
价值函数（Value Function）：衡量状态或动作的长期回报，评估某个状态或状态-动作对的好坏，价值函数帮助智能体了解在某个状态下采取行动的长期收益。

强化学习的特点：

无监督学习：不需要标注数据，智能体通过试错学习。
延迟奖励：智能体的动作可能在未来才获得奖励。
动态环境：环境可能随时间变化，智能体需要适应。
强化学习的目标是找到最优策略，使得智能体在长远来看能够获得最大的累计奖励。
相关概念
2.1 价值函数
强化学习中的环境由一个马尔可夫决策过程（MDP）建模。

贝尔曼方程（Bellman Equation）是强化学习的核心概念，它描述了一个状态的价值如何递归地依赖于当前奖励和未来状态的价值。（价值函数的核心公式是贝尔曼方程，它通过递归的方式计算长期收益。）它的核心思想是：当前的价值 = 直接奖励 + 未来可能的价值。贝尔曼方程将价值函数和价值-动作对函数递归地表示为：

通过贝尔曼最优方程，可以推导出最优值函数，并进一步得到最优策略：

2.2 策略函数
策略函数是智能体（Agent）在某个状态 s 下选择动作 a 的规则。策略函数决定了智能体的行为方式

基于价值（Value-based）方法
通过优化价值函数（如状态价值函数 V (s) 或状态-动作价值函数 Q(s,a)）来间接推导出最优策略，智能体首先找到最优的价值函数，然后通过价值函数选择能够带来最大长期回报的动作，策略通常通过贪心算法得到。
价值函数可以表示每个状态的长期收益，动作价值函数则表示在特定状态下执行某个动作能获得的长期收益。
代表算法：
1）价值迭代（Value Iteration）
价值迭代（Value Iteration）是一种动态规划（Dynamic Programming, DP）方法，用于求解马尔可夫决策过程（MDP）的最优策略。该方法通过反复更新价值函数，直至收敛到最优值，并从中提取最优策略。

价值迭代的基本流程如下：
输入状态集合 S、动作集合 A、转移概率 P(s′∣s,a)、奖励函数 R(s,a)、折扣因子 γ、终止条件（如收敛误差 θ）

2）Q-learning
Q-learning 是一种值迭代算法，用于在无模型（model-free）的环境中学习最优策略。

基于策略（Policy-based）方法
Policy Gradient
策略梯度方法是一类直接优化策略 $π_θ(a∣s)$的方法，其核心思想是通过调整策略参数 $θ$ 来最大化期望累积奖励，策略本身是参数化的函数（如神经网络），通过梯度上升法不断调整策略参数，以最大化累积累积奖励的期望
策略梯度定理：
在此之前，首先介绍策略梯度定理，策略梯度定理是基于策略方法的理论基础，它提供了一种直接优化策略参数 $θ$ 的方法，以最大化期望累积奖励，累积奖励通常用目标函数$J(θ)$表示：

$G(\tau)=\sum_{t=0}^T \gamma^t r_t$ , $rt$ 表示在时刻 t 的奖励，$\gamma$ 表示折扣率，$J(\theta)$是所有轨迹的回报的期望值，也是优化的目标，策略梯度法是希望找到使得$J(\theta)$最大的策略参数 $θ$ 。直接计算期望的梯度比较困难，我们通常使用蒙特卡洛采样方法（通过采样来估计期望值来）近似计算梯度。具体在PG里，蒙特卡洛采样方法在策略 $\pi{\theta}$ 下采样多条轨迹，然后使用这些轨迹回报的均值来近似计算梯度。
策略梯度定理表明，目标函数$J(\theta)$对策略参数 $θ$ 的梯度$\nabla_{\theta}J(\theta)$可以表示为：

其中：
● $\pi_{\theta}(a_t|st)$ 表示策略 $\pi{\theta}$ 在状态 $s_t$下选择动作 $at$ 的概率
● $\nabla{\theta} log \pi_{\theta}(a_t|st)$ 表示策略 $\pi{\theta}$ 在状态 $s_t$下选择动作 $a_t$ 的对数概率关于参数 $θ$ 的梯度

为什么目标函数$J(θ)$对策略参数的梯度可以这么表示?

以上，策略梯度定理介绍完了，通过公式可以看出：如果某个轨迹 $\tau$ 的累积奖励 $$G(\tau)$$为正，我们就希望这个轨迹中的动作被选择的概率$ \pi_{\theta} (a_t | st)$ 更高；如果为负，我们就希望这个轨迹中的动作被选择的概率更低。
策略梯度方法中，策略参数根据梯度上升法优化：$\theta{t+1} = \theta{t} + \alpha \nabla{\theta} J(\theta)$ ，使得策略朝着期望回报最大的方法更新
结论：策略梯度法提供了一种直接优化策略的方法，避免了基于值函数的间接优化，核心是通过调整策略参数，使得高回报的动作被选择的概率增加，低回报的动作被选择的概率减少。

REINFORCE 算法
原始PG算法的一个主要问题是：使用了不相关的奖励信息。在PG计算梯度时，使用了总回报 $G(\tau)$ 作为权重，它包含了整个轨迹的回报（也就是说，站在时刻 t 的视角去看，这个总回报既包含了时刻 t 之前的奖励，也包含了时刻t之后的奖励），实际上，在评估当前动作的时候，只需要关注从这一动作开始直到轨迹结束的“后续表现”（也叫 “rewards to go”），即当前以及未来的奖励，而不应该考虑过去的奖励。
为了解决这个问题，REINFORCE 算法使用 $G_t$ 来代替 $G(\tau)$ 作为权重。表示从当前时刻 t 到轨迹结束的总回报，也就是只要「现在」和「未来」，不要「过去」：
$Gt=\sum{k=t}^T \gamma^{k-t} r_k$ 表示从时刻 t 开始的累积折扣回报， $rk$ 表示在时刻 k 的奖励（初始化为 t ），$\gamma$ 表示折扣率。（对比$G(\tau)=\sum{t=0}^T \gamma^t r_t$ 理解）
这样一来，使用 $G_t$ 作为权重可以更准确地估计策略梯度。REINFORCE 算法的梯度计算公式如下：

带基线（Baseline）的REINFORCE 算法
REINFORCE 算法通过用“rewards to go”代替轨迹整体回报改进了PG，但由于强化学习是通过采样轨迹来计算策略梯度的，但这种梯度计算方法往往具有较高的方差，意味着每次采样得到的梯度值差异可能很大，会影响策略更新的稳定性和收敛速度。
方差较高的原因：
● 智能体每次与环境交互产生的轨迹具体多样性和随机性
● 策略更新后，策略的微小变化可能会导致生成的轨迹发生很大改变
为了减少方差，可以引入基线（Baseline）。核心思想是，为每一步的“后续奖励”减去一个基准值，在数学上表示为b，即参考线，它不一定是一个常数，更多时候是状态 $s_{t}$ 的一个函数。这个参考线的实际意义是当前的状态下回报奖励的期望，那么超出期望（Baseline）的部分就是优势（Advantage）。在实际训练中，我们会用优势代替原来的“后续奖励”进行梯度估计，以减小方差。具体来说，使用 $G_t-b(s_t)$ 来代替 $G_t$ 作为权重，其中 $b(s_t)$ 是当前状态 $s_t$ 的基线值。
带基线的REINFORCE的梯度计算公式如下：

那么当前状态 $s_t$ 的基线值 $b(s_t)$ 如何计算？
“rewards to go” 即当前动作之后的奖励在强化学习中被称为 Q 函数（动作价值函数）$Q^\pi(s,a)$ ，即在状态 s 采取动作 a 后，未来能获得的累积奖励期望。（即上面的 $G_t$ ）
当前状态 $s_t$ 的基线值 $b(s_t)$ 通常通过状态价值函数$V^\pi(s)$表示，状态价值函数$V^\pi(s)$ 指的是“状态 s 下的未来累积折扣回报期望”（基准值），可以被认为是对当前状态下「好坏」程度的评估。$V^\pi(s)$通常由一个网络估计出来（如用一个神经网络（价值模型）拟合 $V^\pi(s)$，并与策略模型联合训练）
通过动作价值函数$Q^\pi(s,a)$ 减去状态价值函数 $V^\pi(s)$ , 我们得到优势函数：$A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$, 具体的含义是在某个状态 s 下，选择某个动作 a 相比于平均走法能提升多少胜率。如果这个动作带来的预期回报 $Q^\pi(s,a)$ 远高于当前状态的基准水平 $V^\pi(s)$，那么这个动作的优势就是正的，说明它非常值得采用；反之，则说明不如平均水平。
优势函数在意的不是绝对的好，而是相对的好，即相对优势。

蒙特卡洛（Monte Carlo）方法
蒙特卡洛采样（Monte Carlo Sampling）是一种通过多次随机采样来近似计算 “难以直接求解的期望或积分” 的方法。其核心思想是：对于一个随机变量的期望（如强化学习中的累积回报期望），如果无法通过数学公式直接计算，就通过大量随机采样的结果来近似计算期望。
举例来说，若要计算 “掷一枚骰子的平均点数”（理论期望是 3.5），蒙特卡洛采样的做法是：掷骰子 1000 次，记录每次的点数，然后计算这 1000 个点数的平均值（比如 3.48），以此近似 3.5 的真实期望。样本量越大，近似结果越准确。
根据蒙特卡洛（Monte Carlo）采样， f(x) 在分布 p(x) 下的期望值估计计算如下：从分布p(x) 里抽很多样本 x，对每个样本计算f(x)，然后取这些 f(x) 的平均值。表示” 在随机变量 x 按 $p(x)$ 分布采样时，函数 $f(x)$ 的平均输出值。“
带入强化学习的场景，其中 $p(x)$ 是策略模型，随机变量 $x$ 就是从策略 $p(x)$中的采样到的轨迹，$f(x)$ 就是轨迹 $x$ 的期望回报。以REINFORCE 算法为例，蒙特卡洛采样步骤为：

采样完整轨迹：遵循当前策略 $\pi_{\theta}$，采集一条完整的轨迹 $\tau$。
计算轨迹的累积回报：对轨迹中每个时间步 t，计算从该步开始到轨迹结束的累积折扣回报 $$G_t=\sum_{k=t}^T \gamma^{k-t} r_k$$
估计策略梯度：重复采样N条轨迹，得到 N 条轨迹以及对应的累积折扣回报 $$G_t^1,G_t^2,···,G_t^N$$，利用策略梯度定理计算策略梯度$\nabla{\theta}J(\theta) \approx \frac{1}{N}\sum{i=1}N \sum{t=0}T \nabla{\theta} log \pi_{\theta}(a_t|st) · G{i,t}$,$G_{i,t}$ 是第 i 条轨迹第 t 步的累积回报。
更新策略参数：沿梯度方向更新 θ，使策略更倾向于选择能带来高回报的动作。

蒙特卡洛采样用于估计状态价值函数
在强化学习中，蒙特卡洛采样通常用于估计状态价值函数：状态价值函数$V^\pi(s)$ 指的是“状态 s 下的未来累积折扣回报期望”，蒙特卡洛方法通过从状态 s 开始，使用策略 $\pi_{\theta}$ 与环境进行多次交互，生成多条完整的轨迹。对于每条轨迹，计算从状态 s 开始的累积折扣回报，然后对这些回报求平均值，以此来估计状态价值函数$V^\pi(s)$。具体步骤如下：

从状态 s （假设时间步为 t ）开始，按照策略 $\pi_{\theta}$ 与环境交互，直到终止状态，计算从状态 s 出发的累积折扣回报，$$G_t=\sum_{k=t}^T \gamma^{k-t} r_k$$
多次重复步骤 1，得到 N 条轨迹以及对应的累积折扣回报 $$G_t^1,G_t^2,···,G_t^N$$
状态价值函数的估计值 $\widehat{V}^\pi(s) = \frac{1}{N}\sum_{i=1}^N G_t^i$ 。随着采样次数 N 的增加，状态价值函数的估计值 $\widehat{V}^\pi(s)$会逐渐收敛到真实的 $V^\pi(s)$

蒙特卡洛采样中价值函数的更新：
蒙特卡洛采样中会进行大量的试验，如果每次都重新计算平均值，效率会比较低。为了更便于计算，实际中一般会把上述过程写成「更新迭代」的公式，即节省资源，不用保存所有样本数据，也可以做到实时更新：
$V(s_t) \leftarrow V(s_t)+\eta[G_t-V(s_t)]$
其中 $\eta$ 是学习率，控制了我们对新信息的信任程度。如果 $\eta$ 很大（比如接近 1），那么价值函数的更新会比较激进，每次都大幅度地向着新的回报值 $G_t$ 靠拢。反之，如果 $\eta$ 很小，那么价值函数的更新会比较保守，每次都只稍微调整一点。而 $G_t-V(s_t)$是误差项：如果一次采样的回报大于当前价值函数的估计值，那么很可能说明，我们的估计值偏低了，需要变高一点；反则反之。

蒙特卡洛采样的优缺点
优点：
● 适用性广：蒙特卡洛采样不需要对问题的形式做过多假设，无论是简单的积分计算，还是复杂的强化学习问题，只要能进行随机抽样，都可以尝试使用该方法。
● 无偏估计：蒙特卡洛估计直接使用从环境中采样的完整轨迹来计算累积奖励，因此它是无偏差的。
缺点：
● 收敛速度慢：为了获得较为准确的结果，通常需要大量的样本，尤其是在高维空间中，样本数量可能呈指数级增长，导致计算效率低下，即所谓的 “维数灾难”。
● 方差较高：每次采样的轨迹回报受随机因素影响大，导致不同轨迹的回报波动剧烈，梯度估计的方差较高，训练不稳定
● 离线学习：必须等待一条轨迹完整结束后才能计算回报并更新策略，无法 “在线”（边采样边更新）进行，数据利用效率较低。

时序差分法（TD,Temporal Difference）估计
MC方法可以通过「采样」来进行「策略评估」，进而进行策略控制，得到我们想要的策略。但是，MC方法有一个很大的缺点，就是它需要等到一个完整的回合结束，才能计算出每个状态的真实收益，然后用这个收益去更新策略 / 价值函数。这意味着，在回合结束之前，策略 / 价值函数不会发生任何改变，学习效率比较低。对于步骤很长的任务，这种方法就不适合了。
时间差分 (Temporal Difference，TD) 方法做了一个变通，相比MC需要采样整个回合，TD方法只需要采样一步即可更新策略 / 价值函数，无需完整的轨迹。以估计价值为例，MC中更新价值公式如下，每次都需要迭代计算时刻 t 的未来折扣回报 $$G_t=\sum_{k=t}^T \gamma^{k-t} r_k$$
$V(s_t) \leftarrow V(s_t)+\eta[G_t-V(s_t)]$
时序差分将更新价值公式写为：
$V(s_t) \leftarrow V(s_t)+\eta[rt+\gamma V(s{t+1})-V(s_t)]$
即，用即时奖励 $rt$ , 下一状态的价值估计 $V(s{t+1})$ 近似$G_t$。
我的理解：蒙特卡洛是迭代法，时许差分是递归法
这种方法也称为单步 TD 残差，计算简单但偏差较大

偏差和方差：时序差分法 Vs 蒙特卡洛:
偏差（Bias）：指的是模型的预测值和真实值之间的差距。一个高偏差的模型通常意味着它对真实情况的假设过于简单，无法很好地拟合真实数据。
方差（Variance）：指的是模型在不同数据集上的预测结果的波动程度。一个高方差的模型通常意味着它对训练数据的噪声过度敏感，在新的数据上表现不佳。
对于MC方法，它利用实际的回报来更新价值函数。而这个回报是真实的回报，因此是无偏的（unbiased），不会有偏差。但是，因为MC方法需要等待整个回合结束才能计算出回报，而回报是多个随机事件叠加的结果，因此MC方法的更新目标波动比较大，也就是方差比较大。
TD方法利用递归，用下一个状态的估计值去更新上当前状态的估计值。因为下一个状态的估计值本身就是不准确的，所以TD方法的更新目标是不准确的，这导致了偏差。但是，因为TD方法只依赖下一个状态，所以每次更新的变动比较小，因此方差小。

优势函数
优势函数：$A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$ 表示在状态 s下，执行动作 a 比按照平均走法的期望回报高多少。其中 Q 函数（动作价值函数）$Q^\pi(s,a)$ ，表示在状态 s 采取动作 a 后，未来能获得的累积奖励期望。状态价值函数$V^\pi(s)$ 指的是“状态 s 下的未来累积折扣回报期望”。
在实际应用中，如果直接使用 Q函数来计算优势函数，我们需要训练一个额外的 Q 函数网络，这增加了算法的复杂性。所以我们通常使用 TD 误差 $\delta_t$ 来近似优势函数，只需使用状态价值V函数，无需动作价值Q函数：
$A_t \approx \delta_t = rt + \gamma V^\pi(s{t+1}) - V^\pi(s_t)$
其中 $rt$ 是 t 时刻的即时奖励，$V^\pi(s)$ 和 $V^\pi(s{t+1})$ 分别指的是当前状态和下一状态的估计价值（未来累积折扣回报的期望），$\gamma$ 是折扣因子，TD 误差 $\delta_t$ 可以看作是对优势函数的一个估计，表示当前状态的实际回报与预期回报之间的差值。

广义优势估计 (GAE)
MC步数太长，偏差小，方差大，TD步数太短，偏差大，方差小，为了平衡偏差和方差、对MC和TD进行折中，即广义优势估计（Generalized Advantage Estimation，GAE) 。
上面用 TD 误差 $\deltat$ 来近似优势函数是一种单步TD方法，为了更好地估计优势函数，我们可以使用 n 步回报，
$$R_t^{(n)} = r_t+\gamma r_{t+1}+···+\gamma^{n-1} r_{t+n-1}+ \gamma^{n} V(s_{t+n})$$
$V(s{t+n})$ 是时间步t+n的状态价值估计，当n=1时，即单步TD，当n=∞, 即蒙特卡洛
GAE为了更灵活地进行偏差-方差权衡，使用「加权平均」的技巧，引入参数 λ 融合多步 TD 残差，公式定义如下：
$$A_t = \sum_{k=0}^{T} ( {\gamma \lambda} )^ k \delta _{t+k}$$
λ∈(0,1) 是GAE 权重， λ =0时，GAE即单步TD（0的0次方为0）， λ =1时，GAE基本为MC，而 GAE 引入 λ 的核心目的是平衡偏差与方差，实际应用中通常选择 λ=0.95，在偏差和方差之间取折中

基于 Actor-Critic（AC）方法
虽然带基线的REINFORCE 算法可以减少方差，但REINFORCE 算法仍然存在一些缺陷，由于REINFORCE 算法是一种基于蒙特卡洛（Monte Carlo，MC）采样的方法，而且它需要采样完整的轨迹数据，计算每个轨迹的回报，然后利用这些回报来更新策略网络的参数。多次采样虽然让它的估计「偏差」较小，但是轨迹的随机性会导致回报「方差」很高，这样训练的收敛速度就会受到影响
Actor-Critic 方法基于值函数 (Value-based) 和基于策略 (Policy-based) 方法的优点，核心思想是：利用 Critic 网络来评估当前策略的好坏，然后 Actor 网络根据 Critic 的评估结果来更新策略。它是一种结合了策略梯度方法和时序差分学习 (Temporal Difference Learning，TD Learning) 的方法。
● Actor：是一个策略网络 $\pi_{\theta}(a|s)$ ，即想要训练的目标模型，负责生成动作。它接受状态 $s$ 作为输入，输出动作 $a$ 的概率分布。Actor 的目标是学好一个策略，使得智能体能尽可能得到高回报。
● Critic ：是一个价值函数$V^\pi(s)$ 或一个动作价值函数$Q^\pi(s,a)$, 它接收当前状态 s（和动作a ）作为输入，输出一个对当前状态（或状态-动作对）的评估值。Critic 的目标是准确地评估当前策略的好坏。
● 之前介绍的PG/REINFORCE算法，都只有Actor，而没有Critic这个角色。如果说REINFORCE算法是一种MC方法的话，那Actor-Critic就是它的TD改进版。

【AI大模型面试宝典七】- 训练优化篇

🎮 强化学习

人工智能平台PAI

热门文章

最新文章

相关电子书