【5分钟 Paper】Deterministic Policy Gradient Algorithms

简介: 【5分钟 Paper】Deterministic Policy Gradient Algorithms
  • 论文题目:Deterministic Policy Gradient Algorithms

所解决的问题?

  stochastic policy的方法由于含有部分随机,所以效率不高,方差大,采用deterministic policy方法比stochastic policy采样效率高,但是没有办法探索环境,因此只能采用off-policy的方法来进行了。

背景

  以往的action是一个动作分布π θ ( a ∣ s ),作者所提出的是输出一个确定性的策略(deterministic policy) a = μ θ ( s )

   In the stochastic case,the policy gradient integrates over both state and action spaces, whereas in the deterministic case it only integrates over the state space.

  • Stochastic Policy Gradient

   前人采用off-policy的随机策略方法, behaviour policyβ ( a ∣ s ) ≠ π

image.png

  Differentiating the performance objective and applying an approximation gives the off-policy policy-gradient (Degris et al., 2012b)


image.png

所采用的方法?


  • On-Policy Deterministic Actor-Critic

  如果环境有大量噪声帮助智能体做exploration的话,这个算法还是可以的,使用sarsa更新critic,使用 Q w ( s , a ) 近似true action-valueQ μ


image.png

  • Off-Policy Deterministic Actor-Critic

  we modify the performance objective to be the value function of the target policy, averaged over the state distribution of the behaviour policy

image.png


 得到off-policy deterministic actorcritic (OPDAC) 算法:


image.png


 与stochastic off policy算法不同的是由于这里是deterministic policy,所以不需要用重要性采样(importance sampling)。


取得的效果?

20200302145247712.png


所出版信息?作者信息?


  这篇文章是ICML2014上面的一篇文章。第一作者David SilverGoogle DeepMindresearch Scientist,本科和研究生就读于剑桥大学,博士于加拿大阿尔伯特大学就读,2013年加入DeepMind公司,AlphaGo创始人之一,项目领导者。

20200301211515431.jpg



参考链接


  • 参考文献:Degris, T., White, M., and Sutton, R. S. (2012b). Linear off-policy actor-critic. In 29th International Conference on Machine Learning.


扩展阅读

image.png

 最后,论文给出了DPG的采用线性函数逼近定理,以及一些理论证明基础。

  • 参考文献:Sutton, R.S., McAllester D. A., Singh, S. P., and Mansour, Y. (1999). Policy gradient methods for reinforcement learning with function approximation. In Neural Information Processing Systems 12, pages 1057–1063.


  这篇文章以后有时间再读一遍吧,里面还是有些证明需要仔细推敲一下

相关文章
|
4月前
|
算法 数据挖掘
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency,大panel二代测序的一致性和重复性:对具有错配修复和校对缺陷的参考物质进行体细胞突变检测的多实验室评估
37 6
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
|
8月前
|
算法 光互联 计算机视觉
Locally Adaptive Color Correction for Underwater Image Dehazing and Matching
该文提出了一种新颖的水下图像处理方法,结合颜色转移和局部调整来校正颜色,以应对水下光照和散射造成的图像退化。传统颜色转移方法基于全局参数,不适应水下场景中颜色变化的局部性质。文章中,作者通过融合策略,利用光衰减水平估计来实现局部颜色校正。首先,通过暗通道先验恢复彩色补偿图像,然后估计光衰减图。接着,创建一个合成图像,该图像的统计特性代表高衰减区域,用于颜色转移。最后,通过加权融合初始图像和颜色转移图像,生成最终的颜色校正图像。这种方法旨在提高水下图像的对比度和颜色准确性,特别关注高衰减区域。
95 1
|
SQL 移动开发 算法
New Dynamic Programming Algorithm for the Generation of Optimal Bushy Join Trees
MySQL无疑是现在开源关系型数据库系统的霸主,在DBEngine的最新排名中仍然稳居第2位,与第3位SQL Server的积分差距并不算小,可以说是最受欢迎,使用度最高的数据库系统,这一点看看有多少新型数据库要兼容MySQL的协议和语法就知道了。
349 0
New Dynamic Programming Algorithm for the Generation of Optimal Bushy Join Trees
|
机器学习/深度学习 自然语言处理 算法
《Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation》解读
推荐算法是机器学习的一个重要应用,推荐算法与其他机器学习算法的一个重要区别在于数据的特点。在推荐系统中,由于用户行为的长尾效应,往往数据极为稀疏,而另一个问题在于,推荐算法的数据集往往是隐式反馈,即通过对用户行为的采集而非query来获得用户对推荐标的的反馈。学界针对这两个问题曾提出过不少方法,也有很多经典的工作。然而,这两个问题始终没有得到完整的解决。
《Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation》解读
|
机器学习/深度学习
强化学习:Policy-based方法 Part 1
在前面两篇文章中,我们完成了基于值的(value-based)强化学习算法,可以在给定的环境下选择相应动作,并根据最高的Q-value来确定下一步的动作(最大化未来奖励期望)。可以看到,策略主要来源于对动作价值的估计过程。
4409 0
|
关系型数据库 Go
(转)Introduction to Gradient Descent Algorithm (along with variants) in Machine Learning
Introduction Optimization is always the ultimate goal whether you are dealing with a real life problem or building a software product.