LingBot-Map 正式开源!仅用普通摄像头,让机器人实现实时流式三维重建

简介: 灵波团队开源LingBot-Map:首个纯自回归式流式三维重建模型,仅需普通RGB摄像头,即可实时完成相机位姿估计与场景三维建图,20FPS稳定推理,精度、效率、长时稳定性全面领先,填补实时空间感知关键技术空白。

LingBot-Map 正式开源!仅用普通摄像头,让机器人实现实时流式三维重建

近日,灵波团队正式开源流式三维重建模型 LingBot-Map——无需复杂硬件,仅靠一颗普通 RGB摄像头,就能让机器在视频采集过程中,实时完成相机位姿估计与场景三维结构重建,填补实时空间感知领域的关键技术空白,为机器人、自动驾驶等场景提供更可靠的空间理解能力。

在流式三维重建领域,几何精度、时序一致性与运行效率的平衡,一直是行业公认的核心难点。

不同于传统三维重建“先采集、后处理”的模式,流式重建要求系统“边看边理解”,一边接收新画面,一边持续完成定位与建图,同时还要严格控制计算与存储开销,这对模型的设计提出了极高要求。

针对这一痛点,团队打造了 LingBot-Map,以纯自回归式建模为核心,基于几何上下文Transformer,在不依赖未来帧信息的前提下,逐帧处理当前及历史画面,持续输出精准的相机位姿和深度信息,实时还原场景三维结构,真正实现“所见即所建”。

灵波团队引入了几何上下文注意力机制(GCA),能够高效组织与利用跨帧几何信息,在保留关键历史数据的同时,大幅减少冗余计算,兼顾重建质量与运行效率

这一设计借鉴了经典 SLAM 系统对空间信息分层管理的思路,但突破了传统方法依赖手工设计和复杂优化的局限,将核心逻辑交由模型统一学习完成,在长序列场景下也能保持稳定表现。

性能全面领跑:20FPS 实时推理稳定支撑机器人作业

多个权威基准完成严苛测试:

在 Oxford Spires 数据集(大尺度、复杂光照、高标准)上:

  • 绝对轨迹误差(ATE)仅为 6.42 米
  • 轨迹精度较此前最优流式方法提升约 2.8倍
  • 显著优于离线方法 DA3(12.87 米)和 VIPE(10.52 米)

在大场景重建中展现出更强的稳定性。

在 ETH3D、7-Scenes、Tanks and Temples 等多个主流基准上,LingBot-Map 在位姿估计和三维重建质量两个维度全面领先现有流式方法。


其中 ETH3D 基准:重建 F1 分数达到 85.70,较第二名提升超过 8%,场景还原精度大幅提升。

除精度外,LingBot-Map 还兼顾实时性与长时稳定运行能力:

  • 推理速度可实现约 20 FPS
  • 支持 10,000+ 帧 长视频连续推理
  • 长序列运行精度几乎无衰减

这意味着,在机器人导航、避障、操作、交互等需要连续在线处理的真实场景中,它能稳定输出可靠的空间感知结果,为上层应用提供坚实支撑。

持续开源多款模型:补齐实时三维建图关键拼图

自今年 1 月以来,灵波团队相继开源:

  • 高精度空间感知模型 LingBot-Depth
  • 具身大模型 LingBot-VLA
  • 世界模型 LingBot-World
  • 具身世界模型 LingBot-VA

围绕空间感知、具身决策、世界模拟等关键环节,持续夯实具身智能“智能基座”的技术布局。此次 LingBot-Map 的开源,进一步补齐了实时空间理解与在线三维建图的关键能力拼图。

目前,LingBot-Map 的模型和代码已正式在 Hugging Face 和 Model Scope 开源。灵波团队期待更多开发者、研究团队加入进来,一起探索流式三维重建的更多可能,推动技术落地,让机器人更稳定、更高效地理解和适应真实物理世界,赋能更多行业创新。


开源地址:

魔搭社区 ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map

HuggingFace:https://huggingface.co/robbyant/lingbot-map

GitHub:https://github.com/Robbyant/lingbot-map

Paper:https://arxiv.org/abs/2604.14141

Homepage:https://technology.robbyant.com/lingbot-map

团队期待更多开发者、研究团队加入进来,一起探索流式三维重建的更多可能,推动技术落地,让机器人更稳定、更高效地理解和适应真实物理世界,赋能更多行业创新。

https://www.modelscope.cn/models/Robbyant/lingbot-map


目录
相关文章
|
6天前
|
自然语言处理 物联网
ERNIE-Image 8B开源:8B参数实现顶级文生图与精准文字渲染
百度文心大模型开源ERNIE-Image(8B参数单流DiT文生图模型),24GB显存即可运行,指令遵循与文字渲染能力领先开源模型,擅长海报、漫画分镜等强结构化生成;同步推出仅8步推理的ERNIE-Image Turbo。模型与代码已全开源,支持魔搭快速体验。
238 5
|
3天前
|
人工智能 开发框架 文字识别
Qwen3.6 正式发布!阿里云百炼同步开启“AI大模型节省计划”超值优惠
阿里云发布千问Qwen3.6系列大模型,大模型官网:https://t.aliyun.com/U/JbblVp 实现编程、智能体(Agent)及多模态能力的范式跃迁:代码生成与调试更精准,原生支持LangChain等框架,工具调用更稳定,图文识别与推理全面升级。Qwen3.6-Flash轻量高效,开发体验优化。同步推出百炼「全模型通享」限时特惠,新客首月立减最高500元。
302 1
|
2月前
|
存储 人工智能 关系型数据库
春节带娃不崩溃指南:用 MySQL 一键部署AI驱动的儿童科普动画片,娃安静一整天!
“知深识易”是面向3–12岁儿童的AI科普内容生成系统,解决知识碎片化、制作门槛高、注意力不匹配三大难题。基于RDS MySQL向量数据库,融合私域教材与公域权威资源,通过RAG+记忆增强+多模态生成,实现“提问→智能召回→脚本生成→视频/图文输出”端到端闭环。(239字)
春节带娃不崩溃指南:用 MySQL 一键部署AI驱动的儿童科普动画片,娃安静一整天!
|
11天前
|
存储 人工智能 安全
Hermes Agent爆火,聊聊与OpenClaw 到底区别在哪
本文对比近期爆火的Hermes Agent与OpenClaw两大AI Agent框架,从设计理念、记忆系统、技能生成、安全机制等维度解析差异,分析适用场景与互补用法,帮你快速判断哪款更适合自己的自动化需求。
1500 10
|
12天前
|
人工智能 Java 定位技术
【SpringAIAlibaba新手村系列】(14)MCP 本地服务与工具集成
本章从 MCP Server 视角出发,说明如何将本地天气查询能力整理并暴露为标准化工具服务。内容涵盖 @Tool、ToolCallbackProvider、MethodToolCallbackProvider 的作用,以及 Streamable-HTTP 协议下服务端的能力注册与对外提供逻辑。
195 13
|
1天前
|
存储 人工智能 监控
Hermes Agent是什么、能干什么?详细介绍及阿里云部署Hermes Agent喂饭级教程
Hermes Agent 是一款由 Nous Research 推出的开源自主 AI 智能体,以 MIT 协议开放使用,主打跨会话持久记忆、自主提炼可复用技能、多平台接入与多模型切换能力,能够在持续使用中不断适配用户习惯,实现能力的自我迭代。这款智能体定位为可长期稳定运行的自主系统,区别于单一 IDE 插件或简单对话封装,可部署在服务器中独立运行,同时保留完整的数据隐私与部署灵活性,适合个人用户与小型团队搭建专属智能助理。
131 0
|
人工智能 机器人 物联网
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。
457 7
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
|
SQL 数据可视化 关系型数据库
开源低代码平台推荐!10款优秀的开源低代码平台!
本文介绍了10款免费开源低代码开发平台,包括JeeLowCode、Ample、WaveMaker、JeecgBoot等,它们各自具备独特优势,如高性能架构、多数据库支持、实时开发部署等,适用于不同开发需求和应用场景,帮助企业高效实现数字化转型。
2224 3

热门文章

最新文章