高明！OpenAI提出HER算法，AI系统学会从错误中学习-阿里云开发者社区

高明！OpenAI提出HER算法，AI系统学会从错误中学习

2018-03-05 4722

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： OpenAI在利用增强学习训练人工智能系统任务上不断地取得进步。他们发布的新平台显示，可以允许人工智能系统从错误中吸取教训，并将错误视为系统的目标而非失败。

失败是成功之母：HER有自我审视能力

最近几个月，OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines，机器学习算法可以进行自主学习。目前，这个新的算法保证人工智能可以像人类一样从自己的错误中汲取教训。

这个进步源于OpenAI的研究人员在近期公布的名为“后见之明经验复现（Hindsight Experience Reply, HER）”的开源算法。正如名字所示，HER帮助人工智能系统在完成一项任务后，具有自我审视的能力。OpenAI的博客中提到，人工智能认为失败乃成功之母。

以下是视频介绍：

69833d700ed09195664db839cf5516892ca0589f

研究人员写到：“构建HER的关键在于利用人类的直觉：在实现某个任务时，虽然我们没有成功，但是在这个过程中我们学到一些不一样的东西，既然如此，为何不能将我们最终学到的知识作为我们最初的目标呢？“

简而言之，这意味着每一次失败的尝试都是为了实现一个意想不到的“虚拟”目标，而非既定目标。

回想一下你学骑单车的经历，在最开始的几次尝试中，你无法掌握平衡。但是这些经验告诉了你怎么骑车是不正确的，怎么做不能保持平衡。就像在人类的学习过程中，每一次的失败让我们距离成功更进一步。

奖励每一次失败，并且失败也不沮丧

通过使用HER，OpenAI希望他们的人工智能系统可以利用上述的方法来学习。与此同时，这种算法也被作为增强学习模型中的奖励机制的替代算法。为了训练人工智能，使其具有独立的学习能力，它需要包含一个奖励机制：如果人工智能算法达到了预期目标，就可以得到一个小奖励，就像奖励给小孩子一块奶油饼干一样，否则就什么都得不到。另外一个系统根据人工智能距离预期目标的距离来给出奖励。

但是这两种算法并不是完美的。第一个算法会阻碍学习，因为一个人工智能算法在训练过程中要么得到奖励，要么没得到。另一方面，根据IEEE Spectrum报道的内容显示，第二系统在实现时，需要衡量与目标的距离并给出奖励，这个过程是很需要技巧的。如果把每一个任务都当作是后见之明的目标，即使人工智能系统没有完成指定的任务，HER也会提供一个奖励。这样帮助人工智能更快更好地学习。

OpenAI 在他的的博客中提到：“通过进行这种奖励机制的替换，强化学习算法在实现某些目标后会获得一个学习信号，即使这个学习任务不是它最初希望实现的。如果重复这个过程，系统最终可以实现任意的目标，包括最初的既定目标。

7b8e2aebc954eafb5b461608f22a03a2fbcf6014

这种方法并不意味着使用HER方法可以完全简化人工智能系统学习某个任务的过程。研究者表示：“在机器人上使用HER进行学习仍然很难实现，因为这个过程需要大量的数据“。

无论如何，正如OpenAI的模型所显示的，HER有助于鼓励人工智能系统像人类一样从错误中学习，两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧。

原文发布时间为：2018-03-4

本文作者：小潘

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”微信公众号

原文链接:高明！OpenAI提出HER算法，AI系统学会从错误中学习

高明！OpenAI提出HER算法，AI系统学会从错误中学习

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

高明！OpenAI提出HER算法，AI系统学会从错误中学习

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景