【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning-阿里云开发者社区

【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning

2023-08-03 120

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning

论文题目：Deep Reinforcement Learning with Double Q-learning

所解决的问题？

Q-Learning算法中存在动作值函数过估计(overestimate action values)的问题(因为其更新方程中包含一个maximization动作值函数的一项)，那这样的过估计问题是否会对其算法性能有所影响呢？能不能去避免这样的一种过估计问题呢？

背景

如果所有的动作值函数都被均匀地加上一个常数，似乎这不会对策略有什么影响。问题就在于当你有一个动作值函数过估计之后在加上探索和利用技术之后，那可能就会偏向于之前就过估计的动作值函数，而导致有些动作根本就没选到，那就会影响策略学习的好坏了。那么得到的就是一个次优解。

所采用的方法？

DQN中就是使用相同的值函数来选择和评估动作，因此作者这里是将其拆开，具体公式如下：

假设你有两个网络θ 和θ 。一个用来选择动作，决定greedy policy的，另一个用来决定动作值函数的。为了方便与DQN算法对比，这里先写DQN的公式：

两者主要的不同就是这个Target中的策略选择和策略评估是否是用的同一个网络。

取得的效果？

实验作者是用多项式通过采样点拟合曲线。原文如下： The estimate is a d-degree polynomial that is ﬁt to the true values at sampled states, where d = 6 (top and middle rows) or d = 9 (bottom row)。下图中：第一行与第二行的实验对比是为了分析过估计问题的普遍性、第二行跟第三行的实验是为了分析过估计问题与近似函数拟合能力的关系。

作者设计这个环境，最优动作值函数只与当前状态有关。最上面的最优动作值函数被设计为：Q ∗ ( s , a ) = s i n ( s ) Q_{*}(s,a)=sin(s)Q∗(s,a)=sin(s)，中间和下面的那条线被设计为Q ∗ ( s , a ) = 2 e x p ( − s 2 ) Q_{*}(s,a)=2 exp(-s^{2})Q∗(s,a)=2exp(−s2)。左边那幅图中展示的是对状态动作值函数的近似，绿色的点是做实验过程中的采样点。

在采样点上的拟合效果还是很好的，但整个值函数方程的逼近效果还不是很理想。尤其是采样点左侧的误差较大。

作者之后就开始跟最大的作比较，最右边的图最能说明Double DQN能减缓过估计问题了。细节描述如下图所示：

上面这个实验还说了了一个问题，就是近似函数的拟合能力增强往往对已知数据点拟合效果较好，对未知数据点拟合误差较大。

上面说明了过估计是会存在的，那过估计会不会影响学习最优策略呢？

实际上也是会的。其实验结果如下：

从上图中的下方这两幅图可以看出，随着过估计值函数增加，其得分性能下降，所以过估计其实是会损害算法的得分性能。

所出版信息？作者信息？

2016年DeepMind团队发表在ational conference on artificial intelligence上的一篇文章，作者Hado van Hasselt，谷歌DeepMind研究科学家，Rich Sutton同事。

个人主页：https://hadovanhasselt.com/about/

定理证明

Theorem1

下图展示了，过估计的最低下界会随着动作空间维度增加而减少。

定理1 证明：

Theorem2

定理2 描述：

定理2 证明：

这意味着：

参考链接

以前解决过估计的问题是不充分地做值函数近似

Thrun and A. Schwartz. Issues in using function approximation for reinforcement learning. In M. Mozer, P. Smolensky, D. Touretzky, J. Elman, and A. Weigend, editors, Proceedings of the 1993 Connectionist Models Summer School, Hillsdale, NJ, 1993. Lawrence Erlbaum.

或者加一点噪声

van Hasselt. Double Q-learning. Advances in Neural Information Processing Systems, 23:2613–2621, 2010.
van Hasselt. Insights in Reinforcement Learning. PhD thesis, Utrecht University, 2011.

我的微信公众号名称：深度学习与先进智能决策

微信公众号ID：MultiAgent1024

公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning

所解决的问题？

背景

所采用的方法？

取得的效果？

所出版信息？作者信息？

定理证明

Theorem1

Theorem2

参考链接

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning

所解决的问题？

背景

所采用的方法？

取得的效果？

所出版信息？作者信息？

定理证明

Theorem1

Theorem2

参考链接

热门文章

最新文章

相关电子书