图解强化学习 |手算GRPO-阿里云开发者社区

图解强化学习 |手算GRPO

2026-05-26 26

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

简介： GRPO（分组相对策略优化）是PPO的无Critic简化版，仅用单一Actor网络，通过组内候选回答的相对奖励归一化替代优势函数估计；引入裁剪机制与KL正则，显著降低显存开销、提升训练稳定性与长链推理能力。（239字）

GRPO 算法的基础认识

GRPO = Group Relative Policy Optimization（分组相对策略优化算法）

GRPO（Group Relative Policy Optimization）可以看作是 PPO 的无 Critic 简化版本。

它不再额外训练价值网络，而是通过同一组候选回答之间的相对奖励进行归一化，来替代 PPO 中

的优势函数估计。同时，GRPO 保留了 PPO 的裁剪机制，以限制策略更新幅度，保证训练稳定

性，并加入 KL 正则项，防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的

显存与计算开销，同时提升训练稳定性和长链推理能力。

GRPO 算法的网络结构

Actor网络

唯一网络：Actor —— 策略网络

输入：状态 / 文本提示词 s

输出：动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度

作用：根据输入内容生成输出，同时计算概率用于损失更新，全程仅依靠这一个网络完成训练补充

说明：

不再单独设计 Q 网络、价值网络、目标网络，也无可学习的温度参数，网络结构极简

训练阶段会引入参考模型（固定参数，不参与梯度更新），仅用来计算 KL 正则

项，不属于训练网络。

网络更新

使用：GRPO-Clip 裁剪损失 + KL 散度正则损失

目的：更新策略，让组内更好的输出概率变高，同时限制更新幅度，不崩模型、不偏离原始能力。

输入：

状态 / 提示词 s

旧策略动作概率 π_old

新策略动作概率 π_new

组内归一化优势 A（来自同一提示词的多个回答奖励）

参考模型概率 π_ref（固定不动，用来算 KL）

计算：

求概率比 r = π_new / π_old

裁剪到安全区间 [1-ε, 1+ε]

取 min (r*A, clip (r)*A) → 得到裁剪损失

计算 KL 散度（新策略 ↔ 参考模型）

总损失 = 裁剪损失 + β * KL 散度

反向传播更新唯一的 Actor

特点：

只有一个网络更新，显存占用极低

无价值网络，无预测误差，训练极稳

KL 散度约束，模型不会学歪、不会退化

组内归一化优势，自动平衡奖励尺度，不用调参

图解强化学习 |手算GRPO

GRPO 算法的基础认识

GRPO 算法的网络结构

Actor网络

网络更新

大数据与机器学习

热门文章

最新文章

相关电子书