重磅 | 经典教材 R. Sutton《增强学习导论》最新版(548PDF)

简介: 加拿大阿尔伯塔大学著名增强学习大师 Richard S. Sutton 教授的经典教材《增强学习导论》(Reinforcement Learning: An Introduction)第二版近期更新,现书稿的草稿在其主页提供,新智元编译图书的目录部分,全书(英文版 draft)可在新智元公众号下载。

全书目录

第二版引言

第一版引言

符号总结

摘要

1. 增强学习的问题

1.1 增强学习

1.2 案例

1.3 增强学习要素

1.4 限制和范围

1.5 一个延伸案例:Tic-Tac-Toe

1.6 小结

1.7 增强学习的历史

列表法

2. 多臂赌博机(Muti-arm Bandits)问题

2.1 K-臂赌博机问题

2.2 行动值方法

2.3 The 10-armed Testbed

2.4增量实现

2.5 追踪一个非稳态解

2.6 优化初始值

2.7 置信上界行动选择

2.8 梯度赌博机算法

2.9 关联检索

2.10 小结

3. 有限马尔科夫决策过程

3.1 代理(agent)环境交互

3.2 目标和回馈

3.3 返回

3.4 为插入或连续性任务统一符号

3.5 策略和价值函数

3.6 优化策略和价值函数

3.7 优化和近似

3.8 总结

4. 动态编程

4.1 策略估计

4.2 策略改进

4.3 策略迭代

4.4 迭代值

4.5 异步动态编程

4.6 泛化的策略迭代

4.7 动态编程的效果

4.8 总结

5. 蒙特卡洛方法

5.1 蒙特卡洛预测

5.2 蒙特卡洛对行动价值的评估

5.3 蒙特卡洛控制

5.4 不读取(Explore)开始条件下的蒙特卡洛控制

5.5 通过重要抽样进行无策略(off-Policy)预测

5.6 增量实现

5.7 Off-Policy 蒙特卡洛控制

5.8 *Discounting-aware Importance Sampling

5.9 *Per-decision Importance Sampling

5.10 总结

6. 时间差分(TD)学习

6.1 时间差分预测

6.2 时间差分预测方法的优势

6.3 TD(o)的最佳性

6.4 Sarsa:在策略(On-Policy) TD 控制

6.5 Q-Learning:连策略TD 控制

6.6 期待的Sarsa

6.7 偏差最大化和双学习

6.8 游戏、afterstates 和其他具体案例

6.9 总结

7. 多步骤 bootstrapping

7.1 n-step TD 预测

7.2 n-step Sarsa

7.3 通过重要性抽样进行 n-step 离策略学习

7.4 *Per-decision Off-policy Methods with Control Variates

7.5无重要性抽样下的离策略学习:n-step 树反向算法

7.6 一个统一的算法:n-step Q( σ)

7.7 总结

8. 用列表方法进行计划和学习

8.1 模型和计划

8.2 Dyna:融合计划、行动和学习

8.3 模型错了会发生什么

8.4 优先扫除 (prioritized sweeping)

8.5 Expected vs. Sample Updates

8.6 Trajectory Sampling

8.7 Real-time Dynamic Programming

8.8 计划作为行动选择的一部分

8.9 启发式搜索

8.10 Rollout Algorithms

8.11 蒙特卡洛树搜索

8.12 本章总结

8.13 Summary of Part I: Dimensions

近似法解决方案 

9. 使用近似法的在政策预测

9.1 价值函数的近似

9.2 预测目标(MSVE)

9.3 随机梯度和半梯度的方法

9.4 线性方法

9.5 线性方法中的特征构建

9.5.1 多项式

9.5.2 傅里叶基础

9.5.3 Coarse coding

9.5.4 Tile Coding

9.5.5 径向基函数

9.6 Selecting Step-Size Parameters Manually

9.7 非线性函数近似:人工神经元网络

9.8 最小平方TD

9.9 Memory-based Function Approximation

9.10 Kernel-based Function Approximation

9.11 Looking Deeper at On-policy Learning: Interest and Emphasis

9.12 总结

10. 用近似法控制on-policy 在策略

10.1 插入式的半梯度控制

10.2 n-step 半梯度Sarsa

10.3 平均回馈:连续任务中的新问题设定

10.4 “打折”的设置要考虑可用性

10.5 n-step 差分半梯度Sarsa

10.6 总结

11. 使用近似法的离策略方法

11.1 半梯度的方法

11.2 Barid 的反例

11.3 The deadly triad

11.4 Linear Value-function Geometry

11.5 Gradient Descent in the Bellman Error

11.6 The Bellman Error is Not Learnable

11.7 Gradient-TD Methods

11.8 Emphatic-TD Methods

11.9 Reducing Variance

11.10 总结

12. 合格性追踪

12.1 λ-返回

12.2 TD(λ)

12.3 n-step Truncated λ-return Methods

12.4 Redoing Updates: The Online λ-return Algorithm

12.5 真实的在线TD(λ)

12.6 蒙特卡洛学习中的Dutch Traces

12.7 Sarsa(λ)

12.8 Variable λ and γ

12.9 Off-policy Eligibility Traces with Control Variates

12.10 Watkins’s Q(λ) to Tree-Backup(λ)

12.11 Stable Off-policy Methods with Traces

12.12 Implementation Issues

12.13 结论

13. 策略梯度方法

13.1 策略近似及其优势

13.2 策略梯度的原理

13.3 增强:蒙特卡洛策略梯度

13.4 使用基准增强

13.5 评估-决策方法(Actor-Critic)

13.6 连续问题中的策略梯度(平均回馈率)

13.7 连续行动中的策略参数化

13.8 总结

更深层的展望

14.心理学

14.1 预测和控制

14.2 经典的调节

14.2.1 Blocking and Higher-order Conditioning

14.2.2 rescorla wagner 方法

14.2.3 TD模型

14.2.4 TD 模型模拟

14.3 有用条件

14.4 延迟的增强

14.5 认知图

14.6 习惯和目标导向的行为

14.7 总结

15. 神经科学

15.1 神经科学基础

15.2 回馈信号、价值、预测误差和增强信号

15.3 回馈预测误差假设

15.4 回馈预测误差假设的实验支持

15.6 TD 误差/ 多巴胺对应

15.7 神经评估-决策

15.8 评估-决策的学习规则

15.9 快乐主义的神经元

15.10 集体增强学习

15.11 大脑中基于模型的方法

15.12 上瘾

15.13 总结

16. 应用和案例分析

16.1 TD-Gammon

16.2 Samuel 的西洋棋玩家

16.3 Watson的 Daily-Double

16.4 优化记忆控制

16.5 人类水平的电子游戏

16.6 下围棋

16.6.1 AlphaGo

16.6.2 AlphaGo Zero

16.8 个性化网页服务

16.9 热气流滑翔

17.前沿

17.1 General Value Functions and Auxiliary Tasks

17.2 Temporal Abstraction via Options

17.3 Observations and State

17.4 Designing Reward Signals

17.5 Remaining Issues

17.6 Reinforcement Learning and the Future of Artificial Intelligence

参考文献

说明

书中部分插图

06c03416aa3a82e45e2901591ae58c41a8ee378a

原文发布时间为:2018-04-1
本文作者:克雷格
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
相关文章
|
机器学习/深度学习 人工智能 算法
2019 年 11 月最新《TensorFlow 2.0 深度学习算法实战》中文版教材免费开源(附随书代码+pdf)
2019 年 11 月最新《TensorFlow 2.0 深度学习算法实战》中文版教材免费开源(附随书代码+pdf)
613 0
2019 年 11 月最新《TensorFlow 2.0 深度学习算法实战》中文版教材免费开源(附随书代码+pdf)
|
8月前
|
存储 JSON API
如何将 Swagger 文档导出为 PDF 文件
你会发现自己可能需要将 Swagger 文档导出为 PDF 或文件,以便于共享和存档。在这篇博文中,我们将指导你完成将 Swagger 文档导出为 PDF 格式的过程。
|
5月前
|
C#
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
737 40
|
5月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
7月前
|
人工智能 算法 安全
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
374 10
|
6月前
|
数据采集 存储 API
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件
|
10月前
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
1143 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
|
11月前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
1107 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
10月前
|
文字识别 Serverless 开发工具
【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名
学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。 链接: - 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)
1438 5
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
2708 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式