同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(2)

简介: 同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读

2、用于 3D 目标检测的变形关联网络


网络结构如上图所示。总体而言是基于 FCOS3D 检测器,参考 deformable DETR 设计的网络结构。在 FCOS3D 的基础上,保留其 centerness 和 classification 层,而将其原有的位姿预测层替换为 object embedding 和 reference point 层,用于生成 object query。参考 deformable DETR,我们通过预测相对于 reference point 的偏移量得到 2D 采样位置(也就得到了)。采样后的 feature 经由 attention 操作聚合为 object feature,用于预测物体级别的结果(3D score,weight scale,3D box size 等)。此外,采样后各点的 feature 在加入 object embedding 并经由 self attention 处理后输出各点所对应的的 3D 坐标和关联权重所预测的全部可由 EPro-PnP 的蒙特卡洛位姿损失训练得到,不需要额外正则化就可以收敛并有较高的精度。在此基础上,可以增加导数正则化损失和辅助损失进一步提升精度。

四、实验结果

1、6 自由度位姿估计任务

使用 LineMOD 数据集实验,并严格与 CDPN baseline 进行比对,主要结果如上。可见,增加 EPro-PnP 损失进行端到端训练,精度显著提升(+12.70)。继续增加导数正则化损失,精度进一步提升。在此基础上,使用原版 CDPN 的训练结果初始化并增加 epoch(保持总 epoch 数与原版 CDPN 的完整三阶段训练一致)可以使精度进一步提升,其中预训练 CDPN 的优势部分来源于 CDPN 训练时有额外的 mask 监督。


上图是 EPro-PnP 与各种领先方法的比较。由较落后的 CDPN 改进而来的 EPro-PnP 在精度上接近 SOTA,并且 EPro-PnP 的架构简洁,完全基于 PnP 进行位姿估计,不需要额外进行显式深度估计或位姿精修,因此在效率上也有优势。

2、3D 目标检测任务

使用 nuScenes 数据集实验,与其他方法对比结果如上图所示。EPro-PnP 不仅相对 FCOS3D 有了明显提升,还超越了当时的 SOTA、FCOS3D 的另一个改进版本 PGD。更重要的是,EPro-PnP 目前是唯一在 nuScenes 数据集上使用几何优化方法估计位姿的。因 nuScenes 数据集规模较大,端到端训练的直接位姿估计网络已具有较好性能,而我们的结果说明了端到端地训练基于几何优化的模型能做到在大数据集上取得更加优异的性能。

3、可视化分析

上图显示了用 EPro-PnP 训练的稠密关联网络的预测结果。其中,关联权重对图像中的重要区域进行了高光,类似于 attention 机制。由损失函数分析可知,高光区域对应的是重投影不确定性较低以及对位姿变动较为敏感的区域。


3D 目标检测的结果如上图所示。其中左上视图显示了变形关联网络采样出的 2D 点位置,红色表示水平 X 分量较高的带你,绿色表示垂直 Y 分量较高的点。绿色点一般位于物体上下两端,其主要作用是通过物体高度来推算物体的距离,这一特性并非人为指定,完全是自由训练的结果。右图显示了俯视图上的检测结果,其中蓝色云图表示物体中心点位置的分布密度,反映了物体定位的不确定性。一般远处的物体定位不确定性大于近处的物体。


EPro-PnP 的另一重要优势在于,能够通过预测复杂的多峰分布来表示朝向的模糊性。如上图所示,Barrier 由于物体本身旋转对称,朝向经常出现相差 180° 的两个峰值;Cone 本身没有特定的朝向,因此预测结果在各个方向均有分布;Pedestrian 虽不完全旋转对称,但因图像不清晰,不易判断正面和背面,有时也会出现两个峰值。这一概率特性使得 EPro-PnP 对于对称物体不需要在损失函数上做任何特殊处理。

五、总结

EPro-PnP 将原本不可导的最优位姿转变为可导的位姿概率密度,使得基于 PnP 几何优化的位姿估计网络可实现稳定且灵活的端到端训练。EPro-PnP 可应用于一般的 3D 物体位姿估计问题,即使在未知 3D 物体几何形状的情况下,也可以通过端到端训练学习得到物体的 2D-3D 关联点。因此,EPro-PnP 拓宽了网络设计的可能性,例如我们提出的变形关联网络,这在以往是不可能训练的。此外,EPro-PnP 也可以直接被用于改进现有的基于 PnP 的位姿估计方法,通过端到端训练释放现有网络的潜力,提升位姿估计精度。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,不仅可用于其他基于几何优化的 3D 视觉问题,理论上还可以推广至训练一般的嵌套了优化层的模型。

相关文章
|
机器学习/深度学习 存储 人工智能
不避嫌、不遮丑!陈天琦导师自批NeurIPS2018最佳论文:没那么神,问题很多
近日,陈天琦的导师David Duvenaud在NeurIPS 2019上回顾了此前获NeurIPS 2018最佳论文的研究。他表示,这篇论文从写作动机上是为了讨好前辈,在数据处理上没有对基线方法进行调参,导致结果的确定性没那么高,并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。
664 0
不避嫌、不遮丑!陈天琦导师自批NeurIPS2018最佳论文:没那么神,问题很多
|
机器学习/深度学习 人工智能 自然语言处理
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
297 0
|
机器学习/深度学习 达摩院 算法
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(1)
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
115 0
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
|
机器学习/深度学习 人工智能 自然语言处理
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
从AI学术顶会IJCAI统计的这些数据中,洞见热门研究趋势。
231 0
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
|
机器学习/深度学习 编解码 算法
44篇论文强势进击CVPR 2018,商汤科技的研究员都在做哪些研究?
机器之心走进商汤,尝试从 44 篇接收论文中找出商汤近期的主攻方向,分析公司为 3-5 年乃至更长期的发展进行了哪些战略技术储备,也观照 CVPR 会议,乃至视觉领域的关注点迁移趋势。同时我们采访了三位来自商汤入选本届 CVPR oral / spotlight 环节的论文作者,与他们谈了自己的研究,如何进行开发,以及对 CVPR 乃至 CVPR 之外整个视觉领域研究现状的看法。
217 0
|
机器学习/深度学习 人工智能 算法
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
388 0
|
算法 数据挖掘 知识图谱
CIKM'2017 最佳论文鉴赏
今年的Best Paper Award由清华大学的李国良老师团队获得,论文题为:Hike: A Hybrid Human-Machine Method for Entity Alignment in Large-Scale Knowledge Bases《一种基于人机协作的大型知识图谱对齐方法》. 因为是Best Paper,本篇分享单独对该文章做细致解读。
4121 0
|
机器学习/深度学习 人工智能 算法
AAAI 2019 四个杰出论文奖论文揭晓
一半都是强化学习论文
570 0
|
机器学习/深度学习 人工智能 自然语言处理
对话清华大学周昊,详解IJCAI杰出论文及其背后的故事
本文中周昊分享了自己NLP研究心得,并对自己的获奖论文进行了解读,希望可以给大家的研究与学习带来灵感。
1709 0