DeepMind提出基于视觉的强化学习模型，十八般兵器对机器人不在话下

2022-01-13 400

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 人类能够模仿别人的行为，根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型，赋予机器人相同的能力，最终生成的模型与操作器、任务都无关，具有更好地通用性。

微信图片_20220113003907.png

新智元报道

来源：arxiv

编辑：LRS

【新智元导读】人类能够模仿别人的行为，根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型，赋予机器人相同的能力，最终生成的模型与操作器、任务都无关，具有更好地通用性。

人类是擅于模仿的，我们和其他动物通过观察行为来模仿，理解它对环境状态的感知影响，并找出我们的身体可以采取什么行动来达到类似的结果。

对于机器人学习任务来说，模仿学习是一个强大的工具。但在这类环境感知任务中，使用强化学习来指定一个回报函数却是很困难的。

DeepMind最新论文主要探索了仅从第三人称视觉模仿操作轨迹的可能性，而不依赖action状态，团队的灵感来自于一个机器人机械手模仿视觉上演示的复杂的行为。

微信图片_20220113003914.png

DeepMind提出的方法主要分为两个阶段：

1、提出一种操作器无关的表示(MIR, Manipulation-Independent Representations)，即不管是机械手、人手或是其他设备，保证这种表示都能够用于后续任务的学习

2、使用强化学习来学习action策略

与操作器无关的表示

领域适应性问题是机器人模拟现实中最关键的问题，即解决视觉仿真和现实之间的差别。

微信图片_20220113003917.png

1、随机使用各种类型操作器，各种仿真环境用来模拟现实世界

2、加入去除操作臂后的观察

3、时序平滑对抗网络（TSCN, Temporally-Smooth Contrastive Networks），相比TCN来说，在softmax交叉熵目标函数中增加了一个分布系数p，使得学习过程更加平滑，尤其是在cross-domain的情况。

微信图片_20220113003920.png

使用强化学习

MIR表示空间的需求是actionable的，即可用于强化学习，表示为具体的action。

一个解决方案是使用goal-conditioned来训练策略，输入为当前状态o和目标状态g。这篇文章提出一种扩展方式，cross-domain goal-conditional policies，输入当前状态o和跨域的目标状态o'，最小化到达目标的行动次数。

数据和实验

研究小组在8个环境和场景(规范模拟、隐形手臂、随机手臂、随机域、Jaco Hand、真机器人、手杖和人手)上进行了实验，以评估通过未知机械手模拟无约束操作轨迹的性能。

微信图片_20220113003922.png

他们还用了一些基线方法，如朴素的goal conditioned plicies (GCP)和temporal distance。

微信图片_20220113003925.png

微信图片_20220113003928.png

MIR 在所有测试领域都取得了最好的性能。它在叠加成功率方面的表现显著提高，并且以100% 的分数很好地模仿了模拟的 Jaco Hand 和 Invisible Arm。

这项研究论证了视觉模仿表征在视觉模仿中的重要性，并验证了操作无关表征在视觉模仿中的成功应用。

未来工厂中的机器人将拥有更强大的学习能力，并不局限于一种特定工具，一种特定任务。

参考资料：

https://arxiv.org/pdf/2103.09016.pdf

DeepMind提出基于视觉的强化学习模型，十八般兵器对机器人不在话下

新智元报道

【新智元导读】人类能够模仿别人的行为，根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型，赋予机器人相同的能力，最终生成的模型与操作器、任务都无关，具有更好地通用性。

与操作器无关的表示

使用强化学习

数据和实验

新智元

热门文章

最新文章

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DeepMind提出基于视觉的强化学习模型，十八般兵器对机器人不在话下

新智元报道

【新智元导读】人类能够模仿别人的行为，根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型，赋予机器人相同的能力，最终生成的模型与操作器、任务都无关，具有更好地通用性。

与操作器无关的表示

使用强化学习

数据和实验

新智元

热门文章

最新文章

相关电子书

相关实验场景