LingBot-Map 正式开源！仅用普通摄像头，让机器人实现实时流式三维重建-阿里云开发者社区

LingBot-Map 正式开源！仅用普通摄像头，让机器人实现实时流式三维重建

2026-04-20 137

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 灵波团队开源LingBot-Map：首个纯自回归式流式三维重建模型，仅需普通RGB摄像头，即可实时完成相机位姿估计与场景三维建图，20FPS稳定推理，精度、效率、长时稳定性全面领先，填补实时空间感知关键技术空白。

LingBot-Map 正式开源！仅用普通摄像头，让机器人实现实时流式三维重建

近日，灵波团队正式开源流式三维重建模型 LingBot-Map——无需复杂硬件，仅靠一颗普通 RGB摄像头，就能让机器在视频采集过程中，实时完成相机位姿估计与场景三维结构重建，填补实时空间感知领域的关键技术空白，为机器人、自动驾驶等场景提供更可靠的空间理解能力。

在流式三维重建领域，几何精度、时序一致性与运行效率的平衡，一直是行业公认的核心难点。

不同于传统三维重建“先采集、后处理”的模式，流式重建要求系统“边看边理解”，一边接收新画面，一边持续完成定位与建图，同时还要严格控制计算与存储开销，这对模型的设计提出了极高要求。

针对这一痛点，团队打造了 LingBot-Map，以纯自回归式建模为核心，基于几何上下文Transformer，在不依赖未来帧信息的前提下，逐帧处理当前及历史画面，持续输出精准的相机位姿和深度信息，实时还原场景三维结构，真正实现“所见即所建”。

灵波团队引入了几何上下文注意力机制（GCA），能够高效组织与利用跨帧几何信息，在保留关键历史数据的同时，大幅减少冗余计算，兼顾重建质量与运行效率。

这一设计借鉴了经典 SLAM 系统对空间信息分层管理的思路，但突破了传统方法依赖手工设计和复杂优化的局限，将核心逻辑交由模型统一学习完成，在长序列场景下也能保持稳定表现。

性能全面领跑：20FPS 实时推理稳定支撑机器人作业

多个权威基准完成严苛测试：

在 Oxford Spires 数据集（大尺度、复杂光照、高标准）上：

在大场景重建中展现出更强的稳定性。

在 ETH3D、7-Scenes、Tanks and Temples 等多个主流基准上，LingBot-Map 在位姿估计和三维重建质量两个维度全面领先现有流式方法。

其中 ETH3D 基准：重建 F1 分数达到 85.70，较第二名提升超过 8%，场景还原精度大幅提升。

除精度外，LingBot-Map 还兼顾实时性与长时稳定运行能力：

这意味着，在机器人导航、避障、操作、交互等需要连续在线处理的真实场景中，它能稳定输出可靠的空间感知结果，为上层应用提供坚实支撑。

自今年 1 月以来，灵波团队相继开源：

围绕空间感知、具身决策、世界模拟等关键环节，持续夯实具身智能“智能基座”的技术布局。此次 LingBot-Map 的开源，进一步补齐了实时空间理解与在线三维建图的关键能力拼图。

目前，LingBot-Map 的模型和代码已正式在 Hugging Face 和 Model Scope 开源。灵波团队期待更多开发者、研究团队加入进来，一起探索流式三维重建的更多可能，推动技术落地，让机器人更稳定、更高效地理解和适应真实物理世界，赋能更多行业创新。

开源地址：

魔搭社区 ModelScope：https://www.modelscope.cn/models/Robbyant/lingbot-map

HuggingFace：https://huggingface.co/robbyant/lingbot-map

GitHub：https://github.com/Robbyant/lingbot-map

Paper：https://arxiv.org/abs/2604.14141

Homepage：https://technology.robbyant.com/lingbot-map

团队期待更多开发者、研究团队加入进来，一起探索流式三维重建的更多可能，推动技术落地，让机器人更稳定、更高效地理解和适应真实物理世界，赋能更多行业创新。