Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

2025-01-09 23

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型，结合视觉预测与动作执行，显著提升机器人任务成功率。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：Seer 结合视觉预测与动作执行，显著提升机器人任务成功率。
技术：基于 Transformer 架构，融合多模态数据，实现高效的动作预测与视觉预测。
应用：广泛应用于工业自动化、服务机器人、医疗健康等领域。

正文（附运行示例）

Seer 是什么

seer

Seer 是由上海 AI 实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型。该模型通过结合历史信息和目标信号（如语言指令），预测未来时刻的状态，并利用逆动力学模型生成动作信号。

Seer 基于 Transformer 架构，能够处理多模态输入数据，有效融合视觉、语言和机器人本体信号。在真实机器人任务中，Seer 的操作成功率较当前 Sota 提升 43%，且在多种复杂场景下表现出优异的泛化能力。在控制算法测试基准 CALVIN ABC-D Benchmark 中，Seer 的平均任务完成长度达 4.28，综合领先同类模型。

Seer 的主要功能

动作预测：根据当前的视觉状态和目标，预测出合适的机器人动作。基于逆动力学模型估计实现目标所需的中间动作序列。
视觉预测：Seer 具备条件视觉预测功能，能预测未来一定时间步内的 RGB 图像，让机器人“预见”未来的视觉状态，更好地规划和调整动作。
多模态融合：融合视觉、语言和机器人状态等多种模态的信息，实现对复杂任务的理解和执行。基于多模态编码器将不同模态的特征进行整合，为动作预测和视觉预测提供全面的上下文信息。
泛化能力：经过在大规模机器人数据集上的预训练，Seer 展现出强大的泛化能力，在未见场景、新物体、不同光照条件下以及面对高强度干扰时，依然保持稳定的性能。
数据效率：Seer 在预训练阶段用大量数据学习到丰富的先验知识，因此在下游任务中仅需要少量的微调数据即可达到较好的性能，降低数据采集和标注的成本。

Seer 的技术原理

端到端架构：基于端到端的架构设计，将视觉预测和逆动力学预测紧密结合在一起。在训练过程中，视觉预测模块和逆动力学模块协同优化，让模型能充分利用视觉和动作信息，实现更准确的动作预测。
Transformer 架构：基于 Transformer 架构处理视觉状态和动作信息。Transformer 能捕捉到视觉和动作序列中的复杂依赖关系，为模型提供强大的特征提取和表示能力。
先见令牌和动作令牌：Seer 引入先见令牌（foresight token）和动作令牌（action token）。先见令牌预测未来的 RGB 图像，动作令牌估计当前和预测未来观察之间的中间动作。两个令牌基于多模态编码器与输入的 RGB 图像、机器人状态和语言令牌进行融合，用单向注意力掩码实现深度的信息整合。
单向注意力掩码：Seer 设计特殊的单向注意力掩码，让动作令牌充分整合过去和未来的预测信息，有助于模型在多层网络中实现更深层次的信息融合，提高动作预测的准确性和鲁棒性。
大规模预训练与微调：Seer 首先在大规模机器人数据集（如 DROID）上进行预训练，学习到丰富的视觉和动作先验知识。在下游任务中，基于少量的微调数据对模型进行调整，适应具体的任务场景和目标。

如何运行 Seer

仿真环境运行

CALVIN ABC-D

安装：按照 CALVIN ABC-D 安装指南进行环境配置。
运行代码：根据 CALVIN ABC-D 运行指南运行仿真代码。

真实世界实验

快速训练（有/无预训练）

安装：按照真实世界安装指南进行环境配置。
后处理：根据真实世界后处理指南进行数据后处理。
微调与从头训练：按照真实世界微调与从头训练指南进行模型训练。
推理：根据真实世界推理指南进行模型推理。

预训练

安装：按照真实世界安装指南进行环境配置。
预处理：根据真实世界预处理指南进行数据预处理。
预训练：按照真实世界预训练指南进行模型预训练。

资源

项目官网：https://nimolty.github.io/Seer
GitHub 仓库：https://github.com/OpenRobotLab/Seer
arXiv 技术论文：https://arxiv.org/pdf/2412.15109

CALVIN ABC-D

安装：https://github.com/OpenRobotLab/Seer/blob/main/docs/CALVIN_ABC-D_INSTALL.md
运行代码：https://github.com/OpenRobotLab/Seer/blob/main/docs/CALVIN_ABC-D_RUN.md

真实世界实验

快速训练（有/无预训练）

安装：https://github.com/OpenRobotLab/Seer/blob/main/docs/REAL-WORLD_INSTALL.md
后处理：https://github.com/OpenRobotLab/Seer/blob/main/docs/REAL-WORLD_POSTPROCESS.md
微调与从头训练：https://github.com/OpenRobotLab/Seer/blob/main/docs/REAL-WORLD_FT_SC.md
推理：https://github.com/OpenRobotLab/Seer/blob/main/docs/REAL-WORLD_INFERENCE.md

预训练

安装：https://github.com/OpenRobotLab/Seer/blob/main/docs/REAL-WORLD_INSTALL.md
预处理：https://github.com/OpenRobotLab/Seer/blob/main/docs/REAL-WORLD_PREPROCESS.md
预训练：https://github.com/OpenRobotLab/Seer/blob/main/docs/REAL-WORLD_PRETRAIN.md

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

🚀 快速阅读

正文（附运行示例）

Seer 是什么

Seer 的主要功能

Seer 的技术原理

如何运行 Seer

仿真环境运行

CALVIN ABC-D

真实世界实验

快速训练（有/无预训练）

预训练

资源

CALVIN ABC-D

真实世界实验

快速训练（有/无预训练）

预训练

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景