NeRF-RPN:NeRFs中3D目标检测的通用框架

简介: 本文介绍了首个基于NeRF的通用目标检测框架NeRF-RPN。给定预先训练的NeRF模型,NeRF-RPN旨在检测场景中目标的所有边界框。通过利用结合多尺度3D神经体积特征的新颖体素表示,论文证明了可以直接回归NeRF中目标的3D边界框,而无需在任何视点渲染NeRF。NeRF-RPN是一个通用框架,可用于检测没有类标签的目标。论文使用各种主干架构、RPN头设计和损失函数对NeRF-RPN进行了实验。所有这些都可以以端到端的方式进行训练,以估计高质量的3D边界框。为了促进NeRF目标检测的未来研究,论文构建了一个新的基准数据集,该数据集由合成数据和真实数据组成,并进行了仔细的标记和清理。

640.png


摘要



本文介绍了首个基于NeRF的通用目标检测框架NeRF-RPN。给定预先训练的NeRF模型,NeRF-RPN旨在检测场景中目标的所有边界框。通过利用结合多尺度3D神经体积特征的新颖体素表示,论文证明了可以直接回归NeRF中目标的3D边界框,而无需在任何视点渲染NeRF。NeRF-RPN是一个通用框架,可用于检测没有类标签的目标。论文使用各种主干架构、RPN头设计和损失函数对NeRF-RPN进行了实验。所有这些都可以以端到端的方式进行训练,以估计高质量的3D边界框。为了促进NeRF目标检测的未来研究,论文构建了一个新的基准数据集,该数据集由合成数据和真实数据组成,并进行了仔细的标记和清理。


总结来说,本文的主要贡献如下:


  • 首次将RPN引入NeRF用于3D目标检测和相关任务;
  • 基于现有合成室内数据集Hypersim[46]和3D-FRONT[11]以及真实室内数据集ScanNet[5]和SceneNN[19],为NeRF训练精心策划的用于3D目标检测的大型公共室内NeRF数据集;
  • NeRF-RPN在各种主干网络、检测头和损失函数上的实现和比较。论文的模型可以在4小时内使用2个NVIDIA RTX3090 GPU进行训练。在运行时,它可以在115ms内处理给定的NeRF场景(不包括后处理),同时在3D-FRONT NeRF数据集上实现99%的召回率;
  • 演示基于NeRF-RPN的NeRF和相关应用的3D目标检测。

方法640.png



与最初的RPN类似,论文的方法有两个主要组件,见图2。第一个由特征提取器组成,该提取器将从NeRF模型采样的原始辐射亮度和密度体素网格作为输入,并生成特征金字塔作为输出。第二个是RPN本身,它在特征金字塔上运行并生成目标proposal。随后可以提取特征金字塔上对应于proposal的体积,并针对任何下游任务进行进一步处理。论文的方法在NeRF输入特征的形式以及特征提取器和RPN模块的网络架构方面是灵活的,可以适用于多个下游任务。


NeRF的输入采样


论文的方法假设提供了具有合理质量模型的完全训练的NeRF模型。第一步是对其辐射亮度和密度信息进行均匀采样,以构建特征体积。尽管自原始NeRF以来存在大量变体,这些变体采用不同的辐射场表示或结构,但它们具有相同的特性,即可以通过视图方向和空间位置查询重建的辐射和密度。由于在类似的体积渲染过程中基本上使用了辐射亮度和密度,论文的方法使用从NeRF查询的辐射亮度场和密度作为输入,因此NeRF-RPN与现有的NeRF表示变体无关。


论文在覆盖NeRF模型的全部可追踪体积的网格上均匀地采样辐射亮度和密度。可追踪范围是通过略微放大包围场景中所有摄影机和目标的边界框来确定的。每个维度中栅格的分辨率与该维度中可追踪体积的长度成比例,从而保持目标的纵横比。对于使用普通RGB表示辐射度的NeRF模型,论文从相机姿态中使用的相同观察方向进行采样,以训练NeRF并对结果进行平均。如果这样的相机姿势未知,论文将从球体均匀采样方向。通常,每个体素处的样本呈 的形式,其中 是平均辐射亮度,并根据密度 进行转换:

640.png


特征提取


给定原始数据网格,特征提取器将生成特征金字塔。论文在实验中采用了三个主干网:VGG[54]、ResNet[18]和Swin Transformer[30],但其他主干网也可能适用。考虑到室内NeRF场景的目标大小的巨大变化以及不同NeRF场景之间的尺度差异,论文结合了FPN[24]结构来生成多尺度特征,并增强高分辨率特征量中的高级语义信息。对于VGG、ResNet和FPN层,将所有2D卷积、池和归一化层替换为其3D对应层。对于Swin Transformer,论文相应地采用了3D位置嵌入和移动窗口。


3D RPN


论文的3DRPN将特征提取器的特征金字塔作为输入,并输出一组定向边界框(OBB)及其相应的目标分数。与大多数3D目标检测工作一样,论文仅将边界框的旋转约束到世界空间z轴,该轴与世界空间重力向量对齐并垂直于地面。论文为RPN试验了两种类型的region proposal方法:基于锚的方法和无锚的方法,见图3。


640.png

整体损失函数如下:


640.png


其他损失函数


Objectness Classification:


640.png

2D Projection Loss:


640.png

用于3D目标检测的NeRF数据集

尚未为3D目标检测构建具有代表性的NeRF数据集。因此,论文利用Hypersim[46]和3D-FRONT[11]数据集构建了第一个用于3D目标检测的NeRF数据集。除了这些合成数据集,论文还结合了SceneNN[19]和ScanNet[5]的真实世界数据集的子集,以证明本文的方法对真实世界数据具有鲁棒性。图5显示了一些选定示例。表1总结了数据集。


640.png

640.png


实验



640.png640.png

可视化结果:


640.png

结论

论文为NeRF提出了第一个重要的3D目标检测框架,即NeRF-RPN,它对从NeRF提取的体素表示进行操作。通过对不同的主干网络(即VGG、ResNet、Swin Transformer以及基于锚的、无锚的RPN头和多个损失函数)进行综合实验,论文验证了NeRF-RPN可以直接从NeRF回归高质量的框,而无需在任何视图中渲染NeRF的图像。为了促进NeRF中3D目标检测的未来工作,论文构建了一个新的基准数据集,该数据集由合成数据和真实数据组成,具有高NeRF重建质量和仔细的边界框标记和清理。我们希望NeRF-RPN将成为一个很好的基线,可以启发和支持未来在NeRF中进行3D物体检测的工作。


参考



[1] NeRF-RPN: A general framework for object detection in NeRFs



原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
机器学习/深度学习 传感器 人机交互
3D人体姿态估计(教程+代码)
3D人体姿态估计(教程+代码)
|
存储 数据采集 传感器
一文多图搞懂KITTI数据集下载及解析
一文多图搞懂KITTI数据集下载及解析
15850 3
一文多图搞懂KITTI数据集下载及解析
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
存储 消息中间件 SQL
Flink 基础学习(五)数据存储
前面两篇笔记已经写了数据来源和转换如何使用,那么这篇当然就到了数据存储,接下来将会从以下角度介绍一下(喜闻乐见的 What / Why / How)~:
1744 0
Flink 基础学习(五)数据存储
|
算法 机器人 Linux
开源项目推荐:3D点云处理软件CloudCompare,基于Qt和OpenGL
开源项目推荐:3D点云处理软件CloudCompare,基于Qt和OpenGL
6341 0
开源项目推荐:3D点云处理软件CloudCompare,基于Qt和OpenGL
|
传感器 机器学习/深度学习 编解码
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
|
10月前
|
机器学习/深度学习 存储 TensorFlow
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
2345 11
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
|
机器学习/深度学习 传感器 算法
单目3D目标检测 方法综述——直接回归方法、基于深度信息方法、基于点云信息方法
本文综合整理单目3D目标检测的方法模型,包括:基于几何约束的直接回归方法,基于深度信息的方法,基于点云信息的方法。万字长文,慢慢阅读~ 直接回归方法 涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet、SMOKE等。 基于深度信息的方法 涉及到模型包括:MF3D、MonoGRNet、D4LCN、MonoPSR等。 基于点云信息的方法 涉及到模型包括:Pseudo lidar、DD3D、CaDDN、LPCG等。
2740 2
|
存储 传感器 数据可视化
3D目标检测数据集 KITTI(标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图)
本文介绍在3D目标检测中,理解和使用KITTI 数据集,包括KITTI 的基本情况、下载数据集、标签格式解析、3D框可视化、点云转图像、画BEV鸟瞰图等,并配有实现代码。
4116 1
|
传感器 机器学习/深度学习 人工智能
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)