图解强化学习 |手算GRPO

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: GRPO(分组相对策略优化)是PPO的无Critic简化版,仅用单一Actor网络,通过组内候选回答的相对奖励归一化替代优势函数估计;引入裁剪机制与KL正则,显著降低显存开销、提升训练稳定性与长链推理能力。(239字)

 GRPO 算法的基础认识

GRPO = Group Relative Policy Optimization(分组相对策略优化算法)

GRPO(Group Relative Policy Optimization)可以看作是 PPO 的无 Critic 简化版本。

它不再额外训练价值网络,而是通过同一组候选回答之间的相对奖励进行归一化,来替代 PPO 中

的优势函数估计。同时,GRPO 保留了 PPO 的裁剪机制,以限制策略更新幅度,保证训练稳定

性,并加入 KL 正则项,防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的

显存与计算开销,同时提升训练稳定性和长链推理能力。



GRPO 算法的网络结构

Actor网络

唯一网络:Actor —— 策略网络

输入:状态 / 文本提示词 s

输出:动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度

作用:根据输入内容生成输出,同时计算概率用于损失更新,全程仅依靠这一个网络完成训练补充

说明:

不再单独设计 Q 网络、价值网络、目标网络,也无可学习的温度参数,网络结构极简

训练阶段会引入参考模型(固定参数,不参与梯度更新),仅用来计算 KL 正则

项,不属于训练网络。

image.gif


网络更新

使用:GRPO-Clip 裁剪损失 + KL 散度正则损失

目的:更新策略,让组内更好的输出概率变高,同时限制更新幅度,不崩模型、不偏离原始能力。

输入:

状态 / 提示词 s

旧策略动作概率 π_old

新策略动作概率 π_new

组内归一化优势 A(来自同一提示词的多个回答奖励)

参考模型概率 π_ref(固定不动,用来算 KL)

计算:

求概率比 r = π_new / π_old

裁剪到安全区间 [1-ε, 1+ε]

取 min (r*A, clip (r)*A) → 得到裁剪损失

计算 KL 散度(新策略 ↔ 参考模型)

总损失 = 裁剪损失 + β * KL 散度

反向传播更新唯一的 Actor

特点:

只有一个网络更新,显存占用极低

无价值网络,无预测误差,训练极稳

KL 散度约束,模型不会学歪、不会退化

组内归一化优势,自动平衡奖励尺度,不用调参

image.gif

image.gif

image.gif

目录
相关文章
|
4天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
2044 7
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
12天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3379 10
|
15天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3432 25
|
8天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2535 5
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
27天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23606 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
6天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
1093 3
|
13天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)