ICRA 2022最佳论文出炉:美团无人机团队获唯一最佳导航论文奖

简介: ICRA 2022最佳论文出炉:美团无人机团队获唯一最佳导航论文奖
在刚刚结束的 ICRA 2022 上,来自美团无人机团队的研究人员拿到了导航领域的年度最佳论文。


国际机器人技术与自动化会议 ICRA 2022 于 5 月 23 日至 5 月 27 日在美举办,这是 Robotics(机器人学)领域最顶级的国际会议之一。今年大会共收到 3344 份投稿,其中的 3263 份进入了审稿阶段,1428 篇被接收,接收率为 43.1%。

在这 1428 篇论文中,大会还根据导航、自动化等细分赛道特点,评选了 13 篇杰出论文作为相关领域年度最佳研究成果进行表彰。值得一提的是,美团无人机团队一篇关于视觉里程计的研究获得了大会导航领域的年度最佳论文(Outstanding Navigation Paper),这也是今年唯一一篇第一作者和第一单位均来自中国境内科技公司和高校的获奖论文。


全部奖项链接:https://www.icra2022.org/program/awards

在这篇论文中,作者提出了一种使用点和线的高效的直接视觉里程计(visual odometry,VO)算法—— EDPLVO 。他们证明了,2D 线上的 3D 像素点由 2D 线端点的逆深度决定,这使得将光度误差扩展到线变得可行。与该团队之前的算法 DPLVO 相比,新算法大大减少了优化中的变量数量,而且充分利用了共线性。在此基础上,他们还引入了一个两步优化方法来加快优化速度,并证明了算法的收敛性。 


论文链接:https://www.cs.cmu.edu/~kaess/pub/Zhou22icra.pdf

实验结果表明,该算法的性能优于目前最先进的直接 VO 算法。这项技术将在以无人机、自动配送车为代表的机器人自主导航以及 AR/VR 等领域进行广泛应用。
SLAM、VSLAM、VO 是什么?

将一个机器人放入未知环境中的未知位置,是否有办法让机器人一边移动一边逐步描绘出此环境完全的地图,毫无障碍地行进到房间各个可进入的角落呢?这就是所谓的 SLAM(同时定位与地图构建)问题。这里的「机器人」不仅包括传统意义上的机器人,也包括无人机、自动配送车等。因此,SLAM 在自动驾驶、无人配送等领域有着广泛的应用。

如果按照传感器种类来划分,SLAM 可以分为激光 SLAM、视觉 SLAM(VSLAM,传感器主要为相机)等大类。随着计算机视觉的迅速发展,视觉 SLAM 因为信息量大、适用范围广、硬件成本低等优点受到广泛关注,成为许多机器人和计算机视觉应用的基础模块。

VSLAM 的架构通常包括视觉里程计、后端优化、回环检测、建图等模块。其中视觉里程计通过移动物体(如车辆、人、机器人)上搭载的单个或多个相机拍摄的连续图像作为输入,从而增量式地估计物体自身的运动状态。视觉里程计在某些特殊场景下是非常重要且必须的,如无法使用车轮里程计的环境下(如无人机)。

从视觉里程计的原理我们可以看出,由于要处理大量图像,它的资源消耗不容小觑。而在计算资源有限,同时又需要进行实时姿态估计的嵌入式设备中,这一问题会变得更加棘手。

美团的新算法解决了什么问题?

如今,深度学习技术在各种计算机视觉任务中的表现都优于传统方法。在视觉里程计方面,基于学习的方法近年来取得了重大进展。然而,由于这些方法需要强大的 GPU,它们很难在嵌入式系统上做到实时应用,传统的 VSLAM 和 VO 系统仍然是更加合适的选择。

这些传统方法一般分为两类:基于特征的(间接)方法和直接法。基于特征的方法在过去的很长一段时间都是这一领域的主流。但与此同时,最新研究表明,直接法也能表现出很高的准确性和稳健性,即使在低纹理场景下,而这种场景对基于特征的方法来说非常具有挑战性。因此,美团的研究人员将重点放在了直接 VO 方法上。

直接法通常采用具有足够大梯度的像素,通常包括线上的角和点。如图 2(a)所示,在许多人造场景中,线上的点比角多得多。通过光流跟踪角是可以的,但用同样的方法跟踪线上的点却有一些问题,因为线上存在一维模糊性(one-dimensional ambiguity)。如图 2(b)所示,放弃共线约束可能导致深度估计不够精确。虽然之前的研究者已经探索过用线来克服这个问题(比如《DPLVO: Direct Point-Line Monocular Visual Odometry》[2] 和《 Direct monocular odometry using points and lines》[11]),但这些方法通常会显著增加优化中的计算负荷。

于是,美团的研究人员就开始考虑一个问题:能否在不增加计算负荷的情况下利用共线性?

为此,他们在之前工作(DPLVO [2])的基础上进行了进一步的研究。并提出了一种新的算法——EDPLVO。


文章的主要贡献如下:

他们将光度误差扩展到了线。原来的光度误差只针对点定义,很难应用到线。与 DPLVO 中简单地将共线约束引入成本函数不同,他们提出了一种参数化 3D 共线点的新方法,从而使得将光度误差扩展到线变得可行。具体来说,他们证明了 2D 线上任意点的 3D 点由 2D 线两个端点的逆深度决定。该属性可以显著减少变量的数量。同时,该方法在优化过程中严格满足共线约束,这提高了准确率。


他们引入了一个两步骤方法来限制由于在优化中引入长期线关联而导致的计算复杂度。在每次迭代中,他们首先使用固定的逆深度和关键帧姿态来拟合 3D 线。然后,他们使用新的线参数来调节逆深度和关键帧姿态的优化结果。由此产生的两个优化问题很容易解决。研究者证明了该方法总是可以收敛的。


作者提出的算法所生成的点云和线。

实验结果表明,与现有的 VO 算法相比,新算法大大减少了优化的计算量,得到的结果更加准确。在 TUM monoVO dataset 数据集上,在后端优化中,采用论文中提出的直线光度一致性误差 + 两步优化法,比采用点光度一致性误差 + 共线约束 (DPLVO) 提速 44%。




美团的技术背后藏着怎样的业务蓝图?

值得一提的是,在本届 ICRA 中,美团无人机团队另有一篇关于视觉定位技术的论文也被大会收录,新技术旨在帮助无人机等机器人提升执行任务时的精准度和稳定性。根据实验测算,新技术优于目前最先进的 VIO 算法,可以帮助无人机在纯视觉飞行时提升近 3 成的定位精度,大幅提升了飞行安全性。

在美团无人机业务负责人看来,美团在无人机领域的研发布局,大多是基于场景需要驱动的,同时近年来业务场景得以快速落地也离不开技术层面突破助力。

据了解,美团于 2017 年启动了无人机配送服务的探索,目标是打造一个综合飞行器、地面承接装置及航线管理后台系统为一体的城市低空物流网络。目前,美团已经初步完成了飞行器(FP400 系列机型)、自动化机场及无人机智能调度系统的研发工作,其中 90% 以上部件为纯自研。2021 年初,美团无人机在深圳完成了首个面向真实用户的订单配送任务。

美团无人机目前的应用场景主要是在城市环境下满足消费者短途的即时配送需求,比如为紧急药品需求、生鲜需求等提供 3 公里 15 分钟达的标准服务,所以日常配送工作就具有高频短途等特点。截至 2022 年 5 月底,美团无人机已在深圳落地 10 个社区,4 个商圈,服务覆盖近 8000 户居民,完成面向真实用户的订单超 5.4 万单,并在北京、深圳等地测试机场完成了超过 40 万架次的飞行测试,配送飞行总时长 1 万小时以上。此外,自 5 月 20 日起,美团无人机开始在杭州进行常态化核酸样本运输,截至 5 月 25 日配送了近 20 万人次的核酸样本。

,时长01:37

当然长期来看,技术成果接连涌现,一定程度可以反应出这家专注「零售 + 科技」的公司,对于以无人机为代表的机器人赛道的中长期思考。毫无疑问,机器人已成为其最关键的技术主赛道。

美团创始人王兴此前在接受采访时也曾分享过相关思考,「对美团而言,公司所从事的业务不只是移动比特,还有大量移动原子的工作。Robotics 正是连接原子世界与比特世界最重要的纽带之一」。因此,在过去的几年里,美团一直在通过自研、投资、联合研发等方式持续布局 Robotics 赛道。从自动配送车、无人机等移动机器人到移动机械手形态的炒菜机器人、物流机器人,再到以软件系统存在的智能客服、商业大脑等,美团正在建立起能够满足家庭服务、餐饮到店、末端配送、智慧零售等不同应用场景真实需求的 Robotics 产品矩阵。

场景驱动技术,技术反哺场景,两者在美团形成了优势互补现象,美团也由此正在形成自己独有的技术体系。

参考链接:https://blog.csdn.net/wb790238030/article/details/90770801https://xw.qq.com/cmsid/20220329A0BAS000

相关文章
|
SQL 前端开发 Java
Java的学习路线(非常完整)
Java的学习路线(非常完整)
9184 3
Java的学习路线(非常完整)
|
5月前
|
数据采集 人工智能
2025年华为杯F题|江南古典园林的美学特征建模|思路、代码、论文|持续更新中....
2025年华为杯F题|江南古典园林的美学特征建模|思路、代码、论文|持续更新中....
581 0
|
10月前
|
存储 人工智能 自然语言处理
Cursor这类编程Agent软件的模型架构与工作流程
编程Agent的核心是一个强大的大语言模型,负责理解用户意图并生成相应的代码和解决方案。这些模型通过海量文本和代码数据的训练,掌握了广泛的编程知识和语言理解能力。
1035 1
|
人工智能 数据可视化 Linux
【保姆级教程】3步搞定DeepSeek本地部署
DeepSeek在2025年春节期间突然爆火出圈。在目前DeepSeek的网站中,极不稳定,总是服务器繁忙,这时候本地部署就可以有效规避问题。本文以最浅显易懂的方式带读者一起完成DeepSeek-r1大模型的本地部署。
6693 8
|
缓存 监控 持续交付
|
人工智能 JavaScript 数据可视化
Cursor、v0 和 Bolt.new:当今 AI 编程工具的全面解析与对比
本文深入解析了 Cursor AI、v0 和 Bolt.new 三大 AI 编程工具的特点与应用场景。Cursor 适合日常编码与团队协作,v0 专注于 UI 原型设计,Bolt.new 擅长全栈原型开发。各工具在功能上互为补充,开发者可根据需求灵活选择,以提升工作效率。
5555 1
|
前端开发 开发者 Windows
2行代码将你的本地服务暴露在公网!
【8月更文挑战第8天】【8月更文挑战第7天】
2166 1
2行代码将你的本地服务暴露在公网!
|
机器学习/深度学习 存储 运维
ICML 2024:清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【8月更文挑战第7天】在2024年ICML大会上,清华大学团队推出“时间序列大模型(LTSM)”——Timer,一种处理大规模时间序列数据的生成式Transformer。该模型通过预训练学习通用特征,支持多种任务如预测与异常检测。Timer采用统一的数据格式S3处理异构序列,并在数据稀缺场景下展现出色性能。尽管如此,模型泛化能力与计算效率仍有待优化。论文详情参见:https://arxiv.org/abs/2402.02368。
3070 4
|
机器学习/深度学习 存储 人工智能
【机器学习】GBDT (Gradient Boosting Decision Tree) 深入解析
GBDT,全称为Gradient Boosting Decision Tree,即梯度提升决策树,是机器学习领域中一种高效且强大的集成学习方法。它通过迭代地添加决策树以逐步降低预测误差,从而在各种任务中,尤其是回归和分类问题上表现出色。本文将深入浅出地介绍GBDT的基本原理、算法流程、关键参数调整策略以及其在实际应用中的表现与优化技巧。
4227 2
|
机器学习/深度学习 人工智能 自然语言处理
智能笔下的学术:AI在学术写作中的革新应用
【7月更文第31天】随着人工智能技术的发展,AI工具已经成为学术界不可或缺的一部分。它们不仅能够帮助研究人员提高工作效率,还能提升论文的质量。本文将介绍一些流行的AI学术写作工具,并探讨它们如何重塑学术研究的过程。
1532 0