GRPO 算法的基础认识
GRPO = Group Relative Policy Optimization(分组相对策略优化算法)
GRPO(Group Relative Policy Optimization)可以看作是 PPO 的无 Critic 简化版本。
它不再额外训练价值网络,而是通过同一组候选回答之间的相对奖励进行归一化,来替代 PPO 中
的优势函数估计。同时,GRPO 保留了 PPO 的裁剪机制,以限制策略更新幅度,保证训练稳定
性,并加入 KL 正则项,防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的
显存与计算开销,同时提升训练稳定性和长链推理能力。
GRPO 算法的网络结构
Actor网络
唯一网络:Actor —— 策略网络
输入:状态 / 文本提示词 s
输出:动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度
作用:根据输入内容生成输出,同时计算概率用于损失更新,全程仅依靠这一个网络完成训练补充
说明:
不再单独设计 Q 网络、价值网络、目标网络,也无可学习的温度参数,网络结构极简
训练阶段会引入参考模型(固定参数,不参与梯度更新),仅用来计算 KL 正则
项,不属于训练网络。
网络更新
使用:GRPO-Clip 裁剪损失 + KL 散度正则损失
目的:更新策略,让组内更好的输出概率变高,同时限制更新幅度,不崩模型、不偏离原始能力。
输入:
状态 / 提示词 s
旧策略动作概率 π_old
新策略动作概率 π_new
组内归一化优势 A(来自同一提示词的多个回答奖励)
参考模型概率 π_ref(固定不动,用来算 KL)
计算:
求概率比 r = π_new / π_old
裁剪到安全区间 [1-ε, 1+ε]
取 min (r*A, clip (r)*A) → 得到裁剪损失
计算 KL 散度(新策略 ↔ 参考模型)
总损失 = 裁剪损失 + β * KL 散度
反向传播更新唯一的 Actor
特点:
只有一个网络更新,显存占用极低
无价值网络,无预测误差,训练极稳
KL 散度约束,模型不会学歪、不会退化
组内归一化优势,自动平衡奖励尺度,不用调参