【Nature论文浅析】基于模型的AlphaGo Zero

简介: 【Nature论文浅析】基于模型的AlphaGo Zero
  • 论文题目:Mastering Atari, Go, chess and shogi by planning with a learned model


所解决的问题?


  规划planning一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一个完美的环境模型,这个条件在真实的世界中是很难被满足的。


背景


  基于模型的强化学习方法先学一个环境模型,然后基于所学的这个环境模型去规划能够解决无法在真实环境交互过多的问题。以往的经典的规划算法往往都会依赖被控对象的模型,这样对于实际地落地就存在很大的阻碍。现在做的比较好的基于模型的强化学习算法,都不会聚焦在重建整个的环境,也就是说一般不会重构整个的观测序列。像abstract mdplatent space这类方法都能够比较高效地做值函数的估计。


所采用的方法?


  MuZero是基于AlphaZero的改进版本。MuZero扩展AlphaZero到单个智能体领域以及非终止奖励的控制对象上。

  算法主要的思想是预测未来,主要是预测那些可以直接用来规划未来的数据,比如预测未来的值函数。之后就可以基于预测数据进行规划。

  • MuZero算法

  具体做法是:模型接收一个观测数据(比如游戏的一帧像素),然后将其编码到隐藏状态空间。在隐藏状态空间可以通过给定动作和自回归的方式进行学习和训练。在每一步,模型需要产生(或者说去预测)一个策略,一个值函数(预测的累计奖励),和一个即时奖励的预测(当前步的奖励预测)。模型端到端直接训练好,并且作者这里并不采用dreamerplanet学习环境模型的方法,认为模型没有必要具有从隐状态复原到原像素这种能力。隐状态只要能够去正确地估计策略、值函数和即时奖励即可


image.png

其中u 是真实地观测奖励,π 是策略,γ 是折扣因子。


  说白了就是拿到过去的观测数据,编码到当前的隐藏状态,然后再给定未来的动作,就可以在隐藏状态空间中进行规划了


  1. 想要实现上述功能,与基于模型的算法一样,两部走;学环境模型和策略规划。

  环境模型需要提供的是:1. 状态转移;2. 每个节点允许搜索的动作(减少搜索空间);3. 终止节点。用神经网络来做就好了,环境模型其实是由两部分组成,表示模型和动态模型g θ

image.png

取得的效果?


  • 实验结果总之就是很厉害啦!

所出版信息?作者信息?

  Julian Schrittwieser谷歌大脑软件工程师!AlphaGoAlphaZero的项目组成员。

相关文章
|
机器学习/深度学习 存储 缓存
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
675 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
|
机器学习/深度学习 人工智能 机器人
大神回归学界:何恺明宣布加入 MIT
大神回归学界:何恺明宣布加入 MIT
|
人工智能 算法 计算机视觉
MMTracking 食用指南 | 视频目标检测(附AAAI2021论文解读)
VID 旨在检测视频中每一帧出现的物体。 与目标检测相比, VID 允许来自一个视频里的多帧作为输入,但输出形式与目标检测一致。 与多目标跟踪相比, VID 不要求对不同帧中的同一目标进行关联,只需检测出目标即可。
967 0
MMTracking 食用指南 | 视频目标检测(附AAAI2021论文解读)
|
机器学习/深度学习 人工智能 自然语言处理
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
1126 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
|
机器学习/深度学习 人工智能 计算机视觉
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
2125 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
|
机器学习/深度学习 运维 算法
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
ICLR2021和CVPR2021双料大作,谷歌最新成果,融合单类分类与深度表示的自监督学习的异常检测算法,超越多个数据集基准。
457 0
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
|
机器学习/深度学习 人工智能 自然语言处理
AAAI 2020 论文解读:关于生成模型的那些事
提到生成模型,每个人首先要考虑的问题应该都是这两个——生成什么,如何生成。本文介绍的三篇论文就包含了三种生成模型(GNN、RL、VAE,即怎么生成),同时也介绍了这些生成模型各自当前的应用场景(场景图生成、序列生成、任务型对话生成,即生成什么)。
270 0
AAAI 2020 论文解读:关于生成模型的那些事
|
机器学习/深度学习 数据挖掘 计算机视觉
在测试集上训练,还能中CVPR?这篇IEEE批判论文是否合理?
今日,一篇论文帖子在 Reddit 的机器学习版块引起了大家的关注。该论文表示 Concetto Spampinato 等人 2017 年的 CVPR 论文存在错误。但从讨论来看,这篇批评论文同样引起了网友的质疑。
218 0
在测试集上训练,还能中CVPR?这篇IEEE批判论文是否合理?
|
机器学习/深度学习 测试技术
【ICML Oral】DeepMind提出深度学习新方向:神经过程模型
函数逼近是机器学习中许多问题的核心,DeepMind的最新研究结合了神经网络和随机过程的优点,提出神经过程模型,在多任务上实现了很好的性能和高计算效率。
2314 0