【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection

简介: 【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection

【论文原文】:PETR: 用于多视图 3D 对象检测的位置嵌入变换

论文:https://arxiv.org/abs/2203.05625

代码:https://github.com/megvii-research/PETR

博主关键词:小样本学习,语义分割,图注意力网络,互监督,目标检测,三维视觉

推荐相关论文:

【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
https://bbs.csdn.net/topics/612489503

摘要

在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换 (PETR)。 PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。 对象查询可以感知 3D 位置感知特征并执行端到端对象检测。 PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和 44.1% mAP),并在基准测试中排名第一。 它可以作为未来研究的简单而强大的基线。

Fig. DETR、DETR3D 和提出的 PETR 的比较。 (a) 在 DETR 中,对象查询与 2D 特征交互以执行 2D 检测。 (b) DETR3D 将生成的 3D 参考点重复投影到图像平面,并对 2D 特征进行采样以与解码器中的对象查询进行交互。 (c) PETR 通过将 3D 位置嵌入 (3D PE) 编码为 2D 图像特征来生成 3D 位置感知特征。 对象查询直接与 3D 位置感知功能交互并输出 3D 检测结果。

简介

多视图图像的 3D 对象检测由于其在自动驾驶系统中的低成本而具有吸引力。 以往的工作主要是从单目目标检测的角度来解决这个问题。 最近,DETR 因其在端到端目标检测方面的贡献而受到广泛关注。 在 DETR 中,每个对象查询代表一个对象并与 transformer 解码器中的 2D 特征交互以产生预测。 DETR3D 是 DETR 框架的简单扩展,为端到端 3D 对象检测提供了直观的解决方案。 由对象查询预测的 3D 参考点通过相机参数投影回图像空间,并用于从所有相机视图中采样 2D 特征。 解码器将采样特征和查询作为输入并更新对象查询的表示。

然而,DETR3D 中的这种 2D 到 3D 转换可能会引入几个问题。 首先,参考点的预测坐标可能不那么准确,使得采样的特征超出了对象区域。 其次,仅收集投影点处的图像特征,无法从全局视图进行表示学习。 此外,复杂的特征采样过程将阻碍检测器的实际应用。 因此,在没有在线 2D 到 3D 转换和特征采样的情况下构建端到端 3D 对象检测框架仍然是一个遗留问题。

Fig. 所提出的 PETR 范式的架构。 多视图图像被输入到主干网络(例如 ResNet)以提取多视图 2D 图像特征。 在 3D 坐标生成器中,所有视图共享的相机平截头体空间被离散化为 3D 网格。 meshgrid 坐标由不同的相机参数转换,从而产生 3D 世界空间中的坐标。 然后将 2D 图像特征和 3D 坐标注入建议的 3D 位置编码器以生成 3D 位置感知特征。 从查询生成器生成的对象查询通过与 transformer 解码器中的 3D 位置感知功能的交互进行更新。 更新后的查询进一步用于预测 3D 边界框和对象类。

在本文中,我们的目标是开发一个基于 DETR 的简单而优雅的 3D 对象检测框架。 我们想知道是否有可能将 2D 特征从多视图转换为 3D 感知特征。 这样,对象查询就可以在3D环境下直接更新。 我们的工作受到隐式神经表示的这些进步的启发。 在 MetaSR 和 LIFF 中,高分辨率 (HR) RGB 值是通过将 HR 坐标信息编码到 LR 特征中,从低分辨率 (LR) 输入生成的。 在本文中,我们尝试通过编码 3D 位置嵌入将多视图图像的 2D 特征转换为 3D 表示。 为了实现这一目标,首先将由不同视图共享的相机视锥体空间离散化为网格坐标。 然后通过不同的相机参数对坐标进行变换,得到3D世界空间的坐标。 然后从骨干和 3D 坐标中提取的 2D 图像特征被输入到一个简单的 3D 位置编码器以产生 3D 位置感知特征。 3D 位置感知功能将与转换器解码器中的对象查询交互,更新的对象查询进一步用于预测对象类和 3D 边界框。

与 DETR3D 相比,所提出的 PETR 架构带来了许多优势。 它保持了原始 DETR 的端到端精神,同时避免了复杂的 2D 到 3D 投影和特征采样。 在推理期间,可以以离线方式生成 3D 位置坐标,并用作额外的输入位置嵌入。 实际应用起来相对容易一些。

总而言之,我们的贡献是:

文章的主要贡献如下:

• 提出了一个简单而优雅的框架,称为 PETR,用于多视图 3D 对象检测。 通过对 3D 坐标进行编码,将多视图特征转换为 3D 域。 可以通过与 3D 位置感知功能交互来更新对象查询并生成 3D 预测

• 引入了一种新的 3D 位置感知表示,用于多视图 3D 对象检测。 引入了一个简单的隐函数来将 3D 位置信息编码为 2D 多视图特征。

• 实验表明,PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和 44.1% mAP),并在 3D 目标检测排行榜上排名第一。

【社区访问】

【论文速递 | 精选】

阅读原文访问社区

https://bbs.csdn.net/forums/paper


AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
相关文章
|
21天前
|
编解码 人工智能 缓存
自学记录鸿蒙API 13:实现多目标识别Object Detection
多目标识别技术广泛应用于动物识别、智能相册分类和工业检测等领域。本文通过学习HarmonyOS的Object Detection API(API 13),详细介绍了如何实现一个多目标识别应用,涵盖从项目初始化、核心功能实现到用户界面设计的全过程。重点探讨了目标类别识别、边界框生成、高精度置信度等关键功能,并分享了性能优化与功能扩展的经验。最后,作者总结了学习心得,并展望了未来结合语音助手等创新应用的可能性。如果你对多目标识别感兴趣,不妨从基础功能开始,逐步实现自己的创意。
191 60
|
3月前
|
机器学习/深度学习 Web App开发 编解码
论文精度笔记(四):《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》
Sparse R-CNN是一种端到端的目标检测方法,它通过使用一组可学习的稀疏提议框来避免传统目标检测中的密集候选框设计和多对一标签分配问题,同时省去了NMS后处理步骤,提高了检测效率。
67 0
论文精度笔记(四):《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》
|
3月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
56 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
3月前
|
机器学习/深度学习 人工智能 编解码
论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》
本论文提出了一种零样本检测方法,通过引入可转移的对象候选机制来关联类别间的共现关系,并使用所有类的置信度分布进行对象置信度预测,以提高对未见类别物体的检测性能。
43 3
论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》
|
3月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
74 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
3月前
|
机器学习/深度学习 算法 安全
基于深度学习的目标检测的介绍(Introduction to object detection with deep learning)
基于深度学习的目标检测的介绍(Introduction to object detection with deep learning)
41 0
|
5月前
|
UED 开发工具 iOS开发
Uno Platform大揭秘:如何在你的跨平台应用中,巧妙融入第三方库与服务,一键解锁无限可能,让应用功能飙升,用户体验爆棚!
【8月更文挑战第31天】Uno Platform 让开发者能用同一代码库打造 Windows、iOS、Android、macOS 甚至 Web 的多彩应用。本文介绍如何在 Uno Platform 中集成第三方库和服务,如 Mapbox 或 Google Maps 的 .NET SDK,以增强应用功能并提升用户体验。通过 NuGet 安装所需库,并在 XAML 页面中添加相应控件,即可实现地图等功能。尽管 Uno 平台减少了平台差异,但仍需关注版本兼容性和性能问题,确保应用在多平台上表现一致。掌握正确方法,让跨平台应用更出色。
70 0
|
5月前
|
数据采集 API TensorFlow
简化目标检测流程:深入探讨TensorFlow Object Detection API的高效性与易用性及其与传统方法的比较分析
【8月更文挑战第31天】TensorFlow Object Detection API 是一项强大的工具,集成多种先进算法,支持 SSD、Faster R-CNN 等模型架构,并提供预训练模型,简化目标检测的开发流程。用户只需准备数据集并按要求处理,选择预训练模型进行微调训练即可实现目标检测功能。与传统方法相比,该 API 极大地减少了工作量,提供了从数据预处理到结果评估的一站式解决方案,降低了目标检测的技术门槛,使初学者也能快速搭建高性能系统。未来,我们期待看到更多基于此 API 的创新应用。
44 0
|
机器学习/深度学习 人工智能 并行计算
【YOLOv5】LabVIEW+YOLOv5快速实现实时物体识别(Object Detection)含源码
在LabVIEW中调用YOLOv5快速实现实时物体识别,感受丝滑般物体识别
442 0
|
XML TensorFlow API
TensorFlow Object Detection API 超详细教程和踩坑过程
TensorFlow Object Detection API 超详细教程和踩坑过程
248 1

热门文章

最新文章