NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

简介: PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。

在人工智能和机器人技术飞速发展的今天,语言引导的机器人操作(Language-guided robotic manipulation)已经成为一个备受关注的前沿领域。这一技术要求机器人能够理解并执行抽象的用户指令,以完成各种复杂的操作任务。然而,现有的模型在处理这一任务时,往往只是简单地拟合数据,而没有揭示指令与低级可执行动作之间的关系。这使得这些模型容易记住数据的表面模式,而不是获得可转移的知识,从而在动态环境变化时表现得非常脆弱。

为了解决这一问题,研究人员提出了一种名为PIVOT-R的新型世界模型,它专注于预测与任务相关的路点(waypoints)。PIVOT-R由两个主要部分组成:一个是路点感知世界模型(Waypoint-aware World Model,WAWM),另一个是轻量级的动作预测模块。WAWM负责解析原始动作并预测由原始动作驱动的路点,而动作预测模块则专注于解码低级动作。此外,研究人员还设计了一个异步分层执行器(Asynchronous Hierarchical Executor,AHE),它能够为模型的不同模块使用不同的执行频率,从而帮助模型减少计算冗余并提高执行效率。

在SeaWave基准测试中,PIVOT-R的表现超过了当前最先进的开源模型,平均相对改进达到了19.45%,涵盖了四个级别的指令任务。与同步执行的PIVOT-R相比,使用AHE的PIVOT-R的执行效率提高了28倍,而性能仅下降了2.9%。这些结果充分证明了PIVOT-R在提高机器人操作的性能和效率方面具有显著优势。

PIVOT-R的成功在于其对路点预测的专注。通过将重点放在与任务相关的路点上,PIVOT-R能够更准确地理解用户指令,并将其转化为可执行的低级动作。这种方式不仅提高了模型的鲁棒性,还使其能够更好地适应动态环境的变化。此外,AHE的使用也为PIVOT-R带来了显著的性能提升。通过为不同模块设置不同的执行频率,AHE能够有效地减少计算冗余,从而提高模型的执行效率。

然而,PIVOT-R也存在一些潜在的局限性。首先,尽管它在SeaWave基准测试中表现出色,但我们仍需要在更广泛的任务和环境中验证其性能。其次,PIVOT-R的路点预测方法可能不适用于所有类型的机器人操作任务。对于一些需要更精确控制或更复杂动作的任务,可能需要进一步改进或扩展PIVOT-R的方法。此外,虽然AHE的使用提高了PIVOT-R的执行效率,但我们仍需要评估其对模型性能的潜在影响,并探索其他可能的优化策略。

论文地址:https://arxiv.org/abs/2410.10394

目录
相关文章
|
人工智能 关系型数据库 分布式数据库
沉浸式学习PostgreSQL|PolarDB 9: AI大模型+向量数据库, 提升AI通用机器人在专业领域的精准度, 完美诠释柏拉图提出的“知识是回忆而不是知觉”
越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于垂直专业领域,则会存在知识深度和时效性不足的问题。在信息时代,由于企业的知识库更新频率越来越高,并且企业所拥有的垂直领域知识库(例如文档、图像、音视频等)往往是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。
1105 0
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
本次教程介绍了如何使用 PAI ×LLaMA Factory 框架,基于全参方法微调 Qwen2-VL 模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
|
10天前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
68 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
8天前
|
人工智能 算法 机器人
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。
44 3
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
|
15天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
23天前
|
XML 算法 自动驾驶
使用URDF和Xacro构建差速轮式机器人模型
前言 本篇文章介绍的是ROS高效进阶内容,使用URDF 语言(xml格式)做一个差速轮式机器人模型,并使用URDF的增强版xacro,对机器人模型文件进行二次优化。 差速轮式机器人:两轮差速底盘由两个动力轮位于底盘左右两侧,两轮独立控制速度,通过给定不同速度实现底盘转向控制。一般会配有一到两个辅助支撑的万向轮。 此次建模,不引入算法,只是把机器人模型的样子做出来,所以只使用 rivz 进行可视化显示。 机器人的定义和构成 机器人定义:机器人是一种自动化的机器,所不同的是这种机器具备一些与人或生物相似的智能能力,如感知能力、规划能力、动作能力和协同能力,是一种具有高级灵活性的自动化机器
62 15
|
1月前
|
XML 算法 自动驾驶
ROS进阶:使用URDF和Xacro构建差速轮式机器人模型
【11月更文挑战第7天】本篇文章介绍的是ROS高效进阶内容,使用URDF 语言(xml格式)做一个差速轮式机器人模型,并使用URDF的增强版xacro,对机器人模型文件进行二次优化。
|
3月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
80 9
|
4月前
|
机器学习/深度学习 算法 机器人
使用Python实现深度学习模型:智能灾害响应与救援机器人
使用Python实现深度学习模型:智能灾害响应与救援机器人
89 16
|
6月前
|
机器人
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
【6月更文挑战第29天】北京大学研发的RoboMamba是新型机器人多模态大模型,融合Mamba SSM的高效推理与视觉编码器,提升复杂任务处理能力。通过微调策略,仅用少量参数即可快速习得操作技能,实现在通用及机器人场景的高效运行,推理速度提升7倍。尽管面临泛化和可解释性挑战,RoboMamba展示了多模态模型的新潜力。[论文链接:](https://arxiv.org/abs/2406.04339)
100 1

热门文章

最新文章