【Nature论文浅析】基于模型的AlphaGo Zero-阿里云开发者社区

【Nature论文浅析】基于模型的AlphaGo Zero

2023-08-05 141

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Nature论文浅析】基于模型的AlphaGo Zero

论文题目：Mastering Atari, Go, chess and shogi by planning with a learned model

所解决的问题？

规划planning一直都是人工智能研究领域中，人们追逐的一个比较难的研究点，基于树的规划算法，像AlphaGo这类算法已经取得了巨大的成功，然而基于树模型的规划算法需要一个完美的环境模型，这个条件在真实的世界中是很难被满足的。

背景

基于模型的强化学习方法先学一个环境模型，然后基于所学的这个环境模型去规划能够解决无法在真实环境交互过多的问题。以往的经典的规划算法往往都会依赖被控对象的模型，这样对于实际地落地就存在很大的阻碍。现在做的比较好的基于模型的强化学习算法，都不会聚焦在重建整个的环境，也就是说一般不会重构整个的观测序列。像abstract mdp和latent space这类方法都能够比较高效地做值函数的估计。

所采用的方法？

MuZero是基于AlphaZero的改进版本。MuZero扩展AlphaZero到单个智能体领域以及非终止奖励的控制对象上。

算法主要的思想是预测未来，主要是预测那些可以直接用来规划未来的数据，比如预测未来的值函数。之后就可以基于预测数据进行规划。

MuZero算法

具体做法是：模型接收一个观测数据(比如游戏的一帧像素)，然后将其编码到隐藏状态空间。在隐藏状态空间可以通过给定动作和自回归的方式进行学习和训练。在每一步，模型需要产生(或者说去预测)一个策略，一个值函数(预测的累计奖励)，和一个即时奖励的预测(当前步的奖励预测)。模型端到端直接训练好，并且作者这里并不采用dreamer和planet学习环境模型的方法，认为模型没有必要具有从隐状态复原到原像素这种能力。隐状态只要能够去正确地估计策略、值函数和即时奖励即可。