图解强化学习|手算无模型学习:蒙特卡罗与时序差分

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 这篇博客介绍了强化学习在21点游戏中的应用,重点讲解了蒙特卡罗和时序差分两种无模型算法。游戏规则方面,详细说明了21点的观测状态、动作空间(要牌/停牌)、胜负判定和奖励机制。算法部分,蒙特卡罗方法通过完整对局后反向更新价值函数,而时序差分则采用单步更新策略,结合即时奖励和下一状态估值进行动态调整。文章通过具体示例展示了两种算法的计算流程,包括回报累加、Q值更新和策略优化过程,适合强化学习初学者理解基础概念。

  image.gif

21 点(Blackjack)

观测是三元组: (玩家点数, 庄家明牌点数, 是否有可用Ace);Ace 可记 11 点(可用)或 1 点,优

先按 11 计算,爆牌时自动转为 1 点。

仅两个选择:0=停牌(不再要牌)、1=要牌(再抽一张牌),牌池为有放回抽样。

开局双方各发两张牌;玩家先决策,持续要牌直到停牌或点数超 21(爆牌),对局提前结束。

玩家停牌后,庄家亮暗牌并按固定规则补牌:点数不足 17 必须要牌,≥17 则停牌。

                玩家点数>庄家 / 庄家爆牌:玩家胜,奖励+1

                玩家爆牌 / 玩家点数<庄家:玩家负,奖励-1

               点数一致:平局,奖励0

对局中途即时奖励均为0,仅对局结束后结算奖惩。

                                     玩家选择停牌;或玩家要牌后点数超过 21。


蒙特卡罗算法

核心思想

无模型学习无法获取环境转移概率,只能依靠与环境交互得到的完整对局(Episode) 估计价值。

蒙特卡洛方法 是最直观的无模型算法:必须跑完一整局游戏,拿到最终胜负奖励后,再反向更新

每一步的价值与策略。

手算过程

假设我们现在已经玩完了一局游戏,对局轨迹如下:

image.gif

本局为首次对局,所有的动作价值 (Q(s,a))回报(G)列表初始值均为 0 /空列表。

image.gif

步骤 1:逆序遍历轨迹,逐点计算(MC 核心)

image.gif

初始化累积回报:G_sum= 0      首先处理的最后一步(t=1)      

累加累积回报:       G=G_sum+r1=0+1.0=1.0

存入历史回报列表:   此时我们选择的是动作0,所以rewards(s1,0)=[1.0,.......]

更新Q值:   此时我们选择的是动作0,所以Q(s1,0)=mean([1.0,.......])=1.0

然后再更新策略

然后处理(t=0)    

累加累积回报(沿用前面总和): G=G_sum+r2=1.0+0=1.0

存入历史回报列表:   此时我们选择的是动作1,所以rewards(s0,1)=[1.0,.......]

更新Q值:   此时我们选择的是动作1,所以Q(s0,1)=mean([1.0,.......])=1.0

然后再更新策略

image.gif

数学公式

image.gif

时序差分算法

核心思想

                   用 “现实得到的奖励 + 预估未来价值”,去修正 “我之前的估计”。

时序差分 TD = 走一步就更新一步,不用等游戏结束,用 “眼前奖励 + 下一个状态的估计价值” 来更

新当前价值。

手算过程

image.gif

数学公式

image.gif

目录
相关文章
|
9天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
3866 18
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
11天前
|
人工智能 自然语言处理 供应链
|
17天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3627 14
|
13天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
3057 7
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
20天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3762 25
|
4天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
529 0