文档备案控制台

开发者社区大数据与机器学习文章正文

图解强化学习｜手算无模型学习：蒙特卡罗与时序差分

2026-05-31 22

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

简介： 这篇博客介绍了强化学习在21点游戏中的应用，重点讲解了蒙特卡罗和时序差分两种无模型算法。游戏规则方面，详细说明了21点的观测状态、动作空间（要牌/停牌）、胜负判定和奖励机制。算法部分，蒙特卡罗方法通过完整对局后反向更新价值函数，而时序差分则采用单步更新策略，结合即时奖励和下一状态估值进行动态调整。文章通过具体示例展示了两种算法的计算流程，包括回报累加、Q值更新和策略优化过程，适合强化学习初学者理解基础概念。

21 点（Blackjack）

观测是三元组： (玩家点数, 庄家明牌点数, 是否有可用Ace)；Ace 可记 11 点（可用）或 1 点，优

先按 11 计算，爆牌时自动转为 1 点。

仅两个选择：0=停牌（不再要牌）、1=要牌（再抽一张牌），牌池为有放回抽样。

开局双方各发两张牌；玩家先决策，持续要牌直到停牌或点数超 21（爆牌），对局提前结束。

玩家停牌后，庄家亮暗牌并按固定规则补牌：点数不足 17 必须要牌，≥17 则停牌。

玩家点数＞庄家 / 庄家爆牌：玩家胜，奖励+1

玩家爆牌 / 玩家点数＜庄家：玩家负，奖励-1

点数一致：平局，奖励0

对局中途即时奖励均为0，仅对局结束后结算奖惩。

玩家选择停牌；或玩家要牌后点数超过 21。

蒙特卡罗算法

核心思想

无模型学习无法获取环境转移概率，只能依靠与环境交互得到的完整对局（Episode）估计价值。

蒙特卡洛方法是最直观的无模型算法：必须跑完一整局游戏，拿到最终胜负奖励后，再反向更新

每一步的价值与策略。

手算过程

假设我们现在已经玩完了一局游戏，对局轨迹如下：

本局为首次对局，所有的动作价值 (Q(s,a))、回报(G)列表初始值均为 0 /空列表。

步骤 1：逆序遍历轨迹，逐点计算（MC 核心）

初始化累积回报：G_sum= 0 首先处理的最后一步（t=1)

累加累积回报: G=G_sum+r1=0+1.0=1.0

存入历史回报列表: 此时我们选择的是动作0，所以rewards（s1,0)=[1.0,.......]

更新Q值: 此时我们选择的是动作0，所以Q（s1,0)=mean（[1.0,.......]）=1.0

然后再更新策略

然后处理（t=0)

累加累积回报（沿用前面总和）： G=G_sum+r2=1.0+0=1.0

存入历史回报列表: 此时我们选择的是动作1，所以rewards（s0,1)=[1.0,.......]

更新Q值: 此时我们选择的是动作1，所以Q（s0,1)=mean（[1.0,.......]）=1.0

然后再更新策略

数学公式

时序差分算法

核心思想

用 “现实得到的奖励 + 预估未来价值”，去修正 “我之前的估计”。

时序差分 TD = 走一步就更新一步，不用等游戏结束，用 “眼前奖励 + 下一个状态的估计价值” 来更

新当前价值。

手算过程

数学公式

文章标签：

机器学习/深度学习

算法

卿云阁

目录

相关文章

云计算学习者

|

9天前

|

人工智能自然语言处理文字识别

阿里云百炼Qwen3.7-Max简介：能力、优势、支持订阅计划参考

Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型，对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口，具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势，覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容，便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用，适合企业级高要求场景使用。

云计算学习者

3866 18 33

阿里云百炼Qwen3.7-Max简介：能力、优势、支持订阅计划参考

阿里云安全_

|

11天前

|

人工智能自然语言处理供应链

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎

推动代码安全向主动防御演进。

阿里云安全_

2291 6 8

小鲸云

|

17天前

|

人工智能开发工具 iOS开发

Claude Code 新手完全上手指南：安装、国产模型配置与常用命令全解

Claude Code 是一款运行在终端环境中的 AI 编程助手，能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**，无需图形界面、不依赖 IDE 插件，能够深度融入开发者日常工作流。

小鲸云

3627 14 58

JEECG

|

13天前

|

人工智能 Linux BI

国内用 Claude Code 终于不用翻墙了：一行命令搞定，自动接 DeepSeek

JeecgBoot AI专题研究一键脚本：Claude Code + JeecgBoot Skills + DeepSeek 全平台接入一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入，无需翻墙使用 Claude Code，支持 Wind

JEECG

3057 7 45

国内用 Claude Code 终于不用翻墙了：一行命令搞定，自动接 DeepSeek

小林学AI

|

20天前

|

Shell API 开发工具

Claude Code 快速上手指南（新手友好版）

AI编程工具卷疯啦！Claude Code凭借任务驱动+终端原生的特性，成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令，手把手带新手快速上手，全程避坑，30分钟独立用起来。

小林学AI

3762 25 93

YueGuan

|

4天前

|

存储定位技术数据库

CodeGraph 如何让 Claude Code减少 7 成工具调用？

CodeGraph 为 Coding Agent 提供本地代码知识图谱，把函数、类、调用链和框架路由提前整理成“项目地图”，减少盲目搜索和文件读取。它不是新 Agent，而是上下文基础设施，让 Agent 更快找到正确代码路径，平均减少 7 成工具调用。

YueGuan

529 0 2

大数据与机器学习

热门文章

最新文章

数据库开放权限太危险，又不想写API。DataV给你另外一个选择。

身怀绝技的开发者们，快来DataV玩转可视化组件

阿里封神谈hadoop生态学习之路

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

你刚吃的兰州牛肉面，背后就藏着大数据

ajax请求总是不成功？浏览器的同源策略和跨域问题详解

【技术实验】mysql准实时同步数据到Elasticsearch

数据仓库介绍与实时数仓案例

分布式快照算法: Chandy-Lamport

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

图解强化学习｜手算无模型学习：蒙特卡罗与时序差分

拒绝“大模型幻觉”：一文彻底搞懂 RAG（检索增强生成）技术全流程

深度解析：Transformer 的“灵魂”——QKV 变换的物理直觉

人工智能|YOLOv8实战

PyTorch深度学习实战 |SegNet

人工智能|大白话DETR 模型

人工智能|YOLOv5必须了解的知识

人工智能|大白话Meshed-Memory Transformer

人工智能|大白话YOLOv3,YOLOv4

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎