同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(2)

简介: 同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读

2、用于 3D 目标检测的变形关联网络


网络结构如上图所示。总体而言是基于 FCOS3D 检测器,参考 deformable DETR 设计的网络结构。在 FCOS3D 的基础上,保留其 centerness 和 classification 层,而将其原有的位姿预测层替换为 object embedding 和 reference point 层,用于生成 object query。参考 deformable DETR,我们通过预测相对于 reference point 的偏移量得到 2D 采样位置(也就得到了)。采样后的 feature 经由 attention 操作聚合为 object feature,用于预测物体级别的结果(3D score,weight scale,3D box size 等)。此外,采样后各点的 feature 在加入 object embedding 并经由 self attention 处理后输出各点所对应的的 3D 坐标和关联权重所预测的全部可由 EPro-PnP 的蒙特卡洛位姿损失训练得到,不需要额外正则化就可以收敛并有较高的精度。在此基础上,可以增加导数正则化损失和辅助损失进一步提升精度。

四、实验结果

1、6 自由度位姿估计任务

使用 LineMOD 数据集实验,并严格与 CDPN baseline 进行比对,主要结果如上。可见,增加 EPro-PnP 损失进行端到端训练,精度显著提升(+12.70)。继续增加导数正则化损失,精度进一步提升。在此基础上,使用原版 CDPN 的训练结果初始化并增加 epoch(保持总 epoch 数与原版 CDPN 的完整三阶段训练一致)可以使精度进一步提升,其中预训练 CDPN 的优势部分来源于 CDPN 训练时有额外的 mask 监督。


上图是 EPro-PnP 与各种领先方法的比较。由较落后的 CDPN 改进而来的 EPro-PnP 在精度上接近 SOTA,并且 EPro-PnP 的架构简洁,完全基于 PnP 进行位姿估计,不需要额外进行显式深度估计或位姿精修,因此在效率上也有优势。

2、3D 目标检测任务

使用 nuScenes 数据集实验,与其他方法对比结果如上图所示。EPro-PnP 不仅相对 FCOS3D 有了明显提升,还超越了当时的 SOTA、FCOS3D 的另一个改进版本 PGD。更重要的是,EPro-PnP 目前是唯一在 nuScenes 数据集上使用几何优化方法估计位姿的。因 nuScenes 数据集规模较大,端到端训练的直接位姿估计网络已具有较好性能,而我们的结果说明了端到端地训练基于几何优化的模型能做到在大数据集上取得更加优异的性能。

3、可视化分析

上图显示了用 EPro-PnP 训练的稠密关联网络的预测结果。其中,关联权重对图像中的重要区域进行了高光,类似于 attention 机制。由损失函数分析可知,高光区域对应的是重投影不确定性较低以及对位姿变动较为敏感的区域。


3D 目标检测的结果如上图所示。其中左上视图显示了变形关联网络采样出的 2D 点位置,红色表示水平 X 分量较高的带你,绿色表示垂直 Y 分量较高的点。绿色点一般位于物体上下两端,其主要作用是通过物体高度来推算物体的距离,这一特性并非人为指定,完全是自由训练的结果。右图显示了俯视图上的检测结果,其中蓝色云图表示物体中心点位置的分布密度,反映了物体定位的不确定性。一般远处的物体定位不确定性大于近处的物体。


EPro-PnP 的另一重要优势在于,能够通过预测复杂的多峰分布来表示朝向的模糊性。如上图所示,Barrier 由于物体本身旋转对称,朝向经常出现相差 180° 的两个峰值;Cone 本身没有特定的朝向,因此预测结果在各个方向均有分布;Pedestrian 虽不完全旋转对称,但因图像不清晰,不易判断正面和背面,有时也会出现两个峰值。这一概率特性使得 EPro-PnP 对于对称物体不需要在损失函数上做任何特殊处理。

五、总结

EPro-PnP 将原本不可导的最优位姿转变为可导的位姿概率密度,使得基于 PnP 几何优化的位姿估计网络可实现稳定且灵活的端到端训练。EPro-PnP 可应用于一般的 3D 物体位姿估计问题,即使在未知 3D 物体几何形状的情况下,也可以通过端到端训练学习得到物体的 2D-3D 关联点。因此,EPro-PnP 拓宽了网络设计的可能性,例如我们提出的变形关联网络,这在以往是不可能训练的。此外,EPro-PnP 也可以直接被用于改进现有的基于 PnP 的位姿估计方法,通过端到端训练释放现有网络的潜力,提升位姿估计精度。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,不仅可用于其他基于几何优化的 3D 视觉问题,理论上还可以推广至训练一般的嵌套了优化层的模型。

相关文章
|
机器学习/深度学习 存储 PyTorch
Pytorch中in-place操作相关错误解析及detach()方法说明
Pytorch中in-place操作相关错误解析及detach()方法说明
760 0
|
4月前
|
弹性计算 运维 安全
了解权限管理:数字化时代的安全基石
在数字化时代,权限管理作为信息安全的核心机制,通过定义“谁”能对“什么”执行“何种操作”,有效防范未授权访问与数据泄露,广泛应用于个人设备、企业系统与云端服务。它不仅保障安全,还提升业务效率与合规性,是数字化转型的关键支撑。
406 12
|
Web App开发 算法 搜索推荐
DSP广告系统架构
DSP的目标 使用程序的方式进行广告的投放的管理,并利用算法和技术自动实现精准的目标受众定向,只把广告投放给对的人。 对广告主而言,使用程序化购买不仅能提高流量采购效率,更低成本的或可靠,稳定的流量,还能使用各种策略,投放不同的目标人群,使得广告的投放效果更加可控。
5610 0
|
2月前
|
弹性计算 Windows
阿里云香港服务器收费价格:香港ECS和轻量应用服务器配置介绍
2025年阿里云香港服务器优惠汇总:ECS 2核4G+5M带宽仅199元/年;轻量服务器30M带宽24元/月起,200M峰值带宽25元/月起。轻量性价比高,适合个人及中小企业建站、跨境业务,具体配置价格详见官方活动页。
1110 1
|
8月前
|
网络协议 数据安全/隐私保护 网络架构
|
3月前
|
Linux 定位技术
kali Linux 2025.2 安装失败-解决
在安装 Kali Linux 时,若出现“选择并安装软件”步骤失败,通常由网络连接、软件源或硬件驱动问题引起。建议首先尝试重试,若仍失败,可更换为国内镜像源(如阿里云、清华大学或中科大镜像)以提高下载速度和安装成功率。
1035 0
kali Linux 2025.2 安装失败-解决
|
5月前
|
人工智能 前端开发 机器人
10+热门 AI Agent 框架深度解析:谁更适合你的项目?
一个合适的 Agent 框架,决定了你AI应用落地的速度与质量。选框架 ≠ 选最火! 真正能跑起来、跑得稳、跑得远的 Agent 框架,才是你的最优解。
|
11月前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
328 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
缓存 openCL 算法
关于实现Halcon算法加速的基础知识(2)(多核并行/GPU)
关于实现Halcon算法加速的基础知识(多核并行/GPU)
4316 0
关于实现Halcon算法加速的基础知识(2)(多核并行/GPU)
|
PyTorch 算法框架/工具
Pytorch中Trying to backward through the graph和one of the variables needed for gradient错误解决方案
Pytorch中Trying to backward through the graph和one of the variables needed for gradient错误解决方案
2726 0
Pytorch中Trying to backward through the graph和one of the variables needed for gradient错误解决方案