图解强化学习 |手算PG算法

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: PG(Policy Gradient)策略梯度算法直接优化策略网络,输出动作概率而非价值,适用于离散/连续动作空间。需整回合采样后计算折扣回报Gₜ,以-logπ·G为损失函数更新参数,提升高回报动作概率。可引入基线(如平均回报)构建优势函数,提升训练稳定性与效率。(239字)

 PG算法的基础认识

Policy Gradient,策略梯度算法

传统价值算法(DQN)只能选离散最优动作,连续动作场景难以适配PG直接优化决策策略,离

散、连续动作空间都能适用不靠估值选动作,直接更新策略参数;需跑完完整回合汇总数据后再更

新。

image.gif


PG的网络结构

策略网络(Policy Network)

PG 只有一个网络:Actor 网络,没有 Critic,没有价值输出。

输入:当前的状态S

输出:动作的概率

输入状态 s (6维)
全连接层 1 (ReLU)
全连接层 2 (ReLU)
输出层 → Softmax → 动作概率 [p0, p1, p2]

image.gif

PG 不输出价值,只输出动作概率

image.gif


网络更新

网络更新过程

目的:让总奖励高的动作被选中的概率变大,让总奖励低的动作概率变小,直接优化决策策略。

(1)采集一整条回合数据。

从游戏开始到结束,收集所有的:状态 s、动作 a、奖励 r、是否结束 done

(PG 必须等一整局玩完才能更新)

(2)计算每一步动作的 累计折扣回报 Gₜ。

从当前步开始,到回合结束,所有未来奖励的加权总和:



Gₜ 越大 → 这个动作越好

Gₜ 越小 → 这个动作越差

(3)前向传播,计算动作的对数概率

将状态 s 输入 PG 策略网络,得到动作概率 π(a|s),再取对数

image.gif

(4)计算 PG 损失函数

image.gif

(5)反向传播更新网络参数

 最小化损失 → 等价于 最大化总奖励→ 好动作概率上升,坏动作概率下降

PG 更新 = 收集整局数据 → 算总回报 G → 用 -logπ * G 做损失 → 让好动作更容易被选中

log_prob = log( 你刚才选的那个动作的概率 )

用 log_prob,乘积求导转为加减求导,梯度计算数学上更简便,最大化动作概率等价最大化对数

概率,适配深度学习最小损失的优化范式。

作用只有一个:告诉网络,我刚才选了哪个动作。因为概率永远 < 1,所以

log_prob 永远是负数。(0.9 → -0.1;0.5 → -0.69;0.1 → -2.3)

G(累计奖励)

G 代表:你刚才做的这个动作,到底好不好

G 越大 → 动作越好

G 越小 → 动作越差

带基线的 PG

下面的流程图中,我们并没有使用回报,而是使用了优势函数:

区别在于:

之前(用 G_t):两个动作都被强化(因为 G_t 都是正的)

现在(用 Advantage):只强化“比平均好”的动作,抑制“比平均差”的动作

baseline的确定,最简单的方式比如可以使用用当前 batch 的平均回报

G = [2.8, 2.0]

b = (2.8 + 2.0) / 2 = 2.4

b0 = b1 = 2.4

image.gif


手动计算

动作空间:{左(0), 右(1)}

折扣因子:γ = 0.9

批次:先看单条轨迹(B=1),长度 T=2

策略网络:给定状态输出动作概率(softmax 后)

t = 0

输入:当前状态s    

输出 logits:z0 = [0.2, 1.0]

softmax 得到概率: πθ(a|s0) = softmax(z0)≈ [0.31, 0.69]      P(左)=0.31    P(右)=0.69

采样动作  a0 = 1(右)

环境反馈奖励 r0 = 1

进入下一状态s1

t = 1

z1 = [1.2, 0.3]

πθ(a|s1) ≈ [0.71, 0.29]

a1 = 0(左)

r1 = 2

τ = {

     s0, a0=1, r0=1,

     s1, a1=0, r1=2

}

计算 Return(回报)

image.gif

(1)PG算法叫做策略梯度算法,因为直接对策略进行梯度优化

(2)策略梯度公式:

image.gif

(3)回合制更新

image.gif 编辑


目录
相关文章
|
9天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3136 8
|
12天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3198 20
|
5天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2129 3
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
24天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23591 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
1天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队版、Coding Plan或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
|
11天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2645 3
|
3天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
771 2
|
10天前
|
人工智能 安全 开发工具
Claude Code 官方工作原理与使用指南
Claude Code 不是传统代码补全工具,而是 Anthropic 推出的终端 AI 代理,具备代理循环、双驱动架构(模型+工具)、全局项目感知、6 种权限模式等核心能力,本文基于官方文档系统解析其工作原理与高效使用技巧。
1443 0