【论文解读】MV3D-Net 用于自动驾驶的多视图3D目标检测网络

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: ​MV3D-Net融合了视觉图像和激光雷达点云信息;它只用了点云的俯视图和前视图,这样既能减少计算量,又保留了主要的特征信息。随后生成3D候选区域,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View 3D Object Detection Network for Autonomous Driving开源代码:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

 一、框架了解

先看下总体网络结构:(可以点击图片放大查看)

image.gif

上图中的紫色圆圈中M是表示 :基于元素的均值。

输入的数据:有三种,分别是点云俯视图、点云前视图和二维RGB图像。“点云投影”,其实并非简单地把三维压成二维,而是提取了高程、密度、光强等特征,分别作为像素值,得到的二维投影图片。

输出数据:类别标签、3D边界框、时间戳。


1.1 网络的主体部分

image.gif

思路流程:

1)提取特征

    • a. 提取点云俯视图特征
    • b. 提取点云前视图特征
    • c. 提取图像特征

    2)从点云俯视图特征中计算候选区域

    3)把候选区域分别与1)中a、b、c得到的特征进行整合

      • a. 把俯视图候选区域投影到前视图和图像中
      • b. 经过ROI pooling整合成同一维度


      1.2 网络的融合部分

      这部分网络主要是:把整合后的数据经过网络进行融合

      image.gif



      二、MV3D的点云处理

      MV3D将点云和图片数据映射到三个维度进行融合,从而获得更准确的定位和检测的结果。这三个维度分别为点云的俯视图、点云的前视图以及图片。

      image.gif

      2.1 提取点云俯视图

      点云俯视图由高度强度密度组成;作者将点云数据投影到分辨率为0.1的二维网格中。

      高度图的获取方式为:将每个网格中所有点高度的最大值记做高度特征。为了编码更多的高度特征,将点云被分为M块,每一个块都计算相应的高度图,从而获得了M个高度图

      强度图的获取方式为:每个单元格中有最大高度的点的映射值。

      密度图的获取方式为:统计每个单元中点云的个数,并且按照公式:

      image.gif编辑

      其中N为单元格中的点的数目。强度和密度特征计算的是整个点云,而高度特征是计算M切片,所以,总的俯视图被编码为(M + 2)个通道的特征。


      2.2 提取点云前视图

      由于激光点云非常稀疏的时候,投影到2D图上也会非常稀疏。相反,作者将它投影到一个圆柱面生成一个稠密的前视图。 假设3D坐标为:

      image.gif编辑

      那么前视图坐标:

      image.gif编辑

      可以通过如下式子计算

      image.gif


      三、MV3D的图像处理

      采用经典的VGG-16来提取图像特征,这里就不过多说明了。


      四、俯视图计算候选区域

      物体投射到俯视图时,保持了物体的物理尺寸,从而具有较小的尺寸方差,这在前视图/图像平面的情况下不具备的。在俯视图中,物体占据不同的空间,从而避免遮挡问题。

      在道路场景中,由于目标通常位于地面平面上,并在垂直位置的方差较小,可以为获得准确的3Dbounding box提供良好基础。

      候选区域网络就是熟悉的RPN。参考


      五、特征整合

      把候选区域分别与提取的特征进行整合

      image.gif

      流程:

        • a. 把俯视图候选区域投影到前视图和图像中
        • b. 经过ROI pooling整合成同一维度


        六、特征融合

        有了整合后的数据,需要对特征进行融合,最终得到类别标签、3D边界框。

        作者介绍了三种不同的融合方式,分别为

        • a、Early Fusion 早期融合
        • b、Late Fusion 后期融合
        • c、Deep Fusion 深度融合。

        各自的结构如下图所示。

        image.gif

        上图中的紫色圆圈中M是表示 :基于元素的均值。C是表示:串接。

        最终选择了Deep Fusion 深度融合。融合的特征用作:分类任务(人/车/...)、更精细化的3D Box回归(包含对物体朝向的估计)。


        七、模型效果

        和其他模型对比的数据:

        image.gif编辑

        image.gif

        检测效果:

        image.gif


        八、模型代码

        代码地址:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

        作者使用KITTI提供的原始数据,点击链接

        image.gif

        上图是用于原型制作的数据集 。

        我们使用了[同步+校正数据] + [校准](校准矩阵)+ [轨迹]()

        所以输入数据结构是这样的:

        image.gif

        运行 src/data.py 后,我们获得了 MV3D 网络所需的输入。它保存在kitti中。

        image.gif

        上图是激光雷达俯视图(data.py后)

        image.gif

        上图是将 3D 边界框投影回相机图像中。

        输入具体数据格式可以参考'data.py' 'data.py' 网址

        本文参考:自动驾驶|3D目标检测:MV3D-Net(一) - 知乎【3D物体检测】MV3D论文和代码解析 - 知乎

        点云深度学习在自动驾驶中的应用——MV3D文章阅读 - 腾讯云开发者社区-腾讯云


        image.gif

        论文地址:Multi-View 3D Object Detection Network for Autonomous Driving

        代码地址:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

        本文只提供参考学习,谢谢。

        相关文章
        |
        3月前
        |
        机器学习/深度学习 PyTorch 算法框架/工具
        目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
        这篇文章介绍了如何使用PyTorch框架,结合CIFAR-10数据集,通过定义神经网络、损失函数和优化器,进行模型的训练和测试。
        185 2
        目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
        |
        3月前
        |
        机器学习/深度学习 数据可视化 计算机视觉
        目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
        这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
        70 1
        目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
        |
        3月前
        |
        机器学习/深度学习 人工智能
        类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
        【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
        80 3
        |
        2月前
        |
        机器学习/深度学习 计算机视觉 网络架构
        【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
        【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
        【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
        |
        3月前
        |
        机器学习/深度学习 Web App开发 人工智能
        轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
        《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
        51 2
        轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
        |
        3月前
        |
        机器学习/深度学习 编解码 算法
        轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
        MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
        90 1
        轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
        |
        3月前
        |
        机器学习/深度学习 网络架构 计算机视觉
        目标检测笔记(一):不同模型的网络架构介绍和代码
        这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
        121 1
        目标检测笔记(一):不同模型的网络架构介绍和代码
        |
        2月前
        |
        网络协议 Unix Linux
        精选2款C#/.NET开源且功能强大的网络通信框架
        精选2款C#/.NET开源且功能强大的网络通信框架
        |
        2月前
        |
        网络协议 网络安全 Apache
        一个整合性、功能丰富的.NET网络通信框架
        一个整合性、功能丰富的.NET网络通信框架
        |
        3月前
        |
        编解码 人工智能 文件存储
        轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
        YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
        66 0
        轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》