懒人福音！谷歌AI整理房间、收盘子、叠罗汉，样样拿手！-阿里云开发者社区

懒人福音！谷歌AI整理房间、收盘子、叠罗汉，样样拿手！

2022-01-12 417

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 谷歌AI研究院的研究人员提出了「Transporter Network」，用全新方式实现3D理解，可以让机械臂更好更快的进行操作。

微信图片_20220112144843.png

重新排列物体(比如整理书架上的书籍，移动餐桌上的餐具，或者推一堆咖啡豆)是机械臂一项基本技能，它可以让机器人与我们多样化、非结构化的世界进行身体互动。

尽管对于人们来说很容易，但是对于具身机器学习系统（embodied machine learning systems）来说，完成这些任务仍然是一个开放的研究挑战，因为它需要高水平和低水平兼备的感知推理。例如，当堆叠一堆书时，你可以考虑书应该堆放在哪里、以何种顺序，同时确保书的边缘彼此对齐形成一堆整齐的书。

微信图片_20220112144845.png

在机器学习的许多应用领域中，模型结构中的简单差异可以表现出大不相同的泛化特性。因此，人们可能会问，是否有某些深层网络结构支持重新排列问题的简单底层元素。

例如，卷积结构在计算机视觉中很常见，因为它具有平移不变性，即使图像发生移动也会产生相同的响应，而Transformer结构在语言处理中很常见，因为它们利用自注意力来捕捉长距离的上下文相关性。在机器人技术应用中，一个常见的结构是在学习模型中使用以对象为中心的表示，例如姿势、关键点或对象描述符（ object descriptors ），但是这些表示需要额外的训练数据(通常是手动注释) ，并且很难描述复杂的场景，例如变形物(例如 playdough)、液体(蜂蜜)或成堆的东西(剁洋葱)。

最近，谷歌AI的研究人员提出了 Transporter Network，这是一个用于学习基于视觉的重排任务的简单模型结构。

Transporter Network 使用一种新颖的方法来实现3D 空间理解，避免了依赖于以对象为中心的表示，使得它们对基于视觉的操作更加通用，但是比基准的端到端的替代方法更有效率。因此，它适合快速和实用的训练真正的机器人。同时研究人员还发布了一个与 Ravens 一起的 Transporter Nets 的开源实现，这是基于十项视觉的操作任务的新的模拟基准套件。

Transporter Network:为机器操作重新排列视觉世界

Transporter Networks 背后的关键思想是：人们可以将重新排列问题表述为学习如何移动一块三维空间。

3D 空间并不依赖于对象的明确定义(这一定会在捕捉所有边缘情况方面遇到困难) ，而是对可以作为被重新排列的原子单元（atomic units）的更广泛的定义，它可以广泛地包含一个对象、一个对象的一部分或多个对象等。

Transporter Nets 通过捕捉3D视觉世界的深层表征来利用这种结构，然后将其部分覆盖在自身上，以想象各种可能的3D空间重排。然后，它选择在训练过程中看到的最匹配的重新排列方式(如来自专家演示的结果) ，并使用它们来参数化机器人的动作。

这个方式允许 Transporter Nets 泛化到看不见的对象，并使它们能够更好地利用数据中的几何对称性，以便它们能够外推到新的场景配置当中去。Transporter Nets 适用于机器人操作的各种各样的重新排列任务，扩展了早期的模型，比如基于启示（affordance-based）的操作和 TossingBot，它们只关注抓取和抛掷。

QQ图片20220112144720.png