【论文解读】MV3D-Net 用于自动驾驶的多视图3D目标检测网络

简介: ​MV3D-Net融合了视觉图像和激光雷达点云信息;它只用了点云的俯视图和前视图,这样既能减少计算量,又保留了主要的特征信息。随后生成3D候选区域,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View 3D Object Detection Network for Autonomous Driving开源代码:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

 一、框架了解

先看下总体网络结构:(可以点击图片放大查看)

image.gif

上图中的紫色圆圈中M是表示 :基于元素的均值。

输入的数据:有三种,分别是点云俯视图、点云前视图和二维RGB图像。“点云投影”,其实并非简单地把三维压成二维,而是提取了高程、密度、光强等特征,分别作为像素值,得到的二维投影图片。

输出数据:类别标签、3D边界框、时间戳。


1.1 网络的主体部分

image.gif

思路流程:

1)提取特征

    • a. 提取点云俯视图特征
    • b. 提取点云前视图特征
    • c. 提取图像特征

    2)从点云俯视图特征中计算候选区域

    3)把候选区域分别与1)中a、b、c得到的特征进行整合

      • a. 把俯视图候选区域投影到前视图和图像中
      • b. 经过ROI pooling整合成同一维度


      1.2 网络的融合部分

      这部分网络主要是:把整合后的数据经过网络进行融合

      image.gif



      二、MV3D的点云处理

      MV3D将点云和图片数据映射到三个维度进行融合,从而获得更准确的定位和检测的结果。这三个维度分别为点云的俯视图、点云的前视图以及图片。

      image.gif

      2.1 提取点云俯视图

      点云俯视图由高度强度密度组成;作者将点云数据投影到分辨率为0.1的二维网格中。

      高度图的获取方式为:将每个网格中所有点高度的最大值记做高度特征。为了编码更多的高度特征,将点云被分为M块,每一个块都计算相应的高度图,从而获得了M个高度图

      强度图的获取方式为:每个单元格中有最大高度的点的映射值。

      密度图的获取方式为:统计每个单元中点云的个数,并且按照公式:

      image.gif编辑

      其中N为单元格中的点的数目。强度和密度特征计算的是整个点云,而高度特征是计算M切片,所以,总的俯视图被编码为(M + 2)个通道的特征。


      2.2 提取点云前视图

      由于激光点云非常稀疏的时候,投影到2D图上也会非常稀疏。相反,作者将它投影到一个圆柱面生成一个稠密的前视图。 假设3D坐标为:

      image.gif编辑

      那么前视图坐标:

      image.gif编辑

      可以通过如下式子计算

      image.gif


      三、MV3D的图像处理

      采用经典的VGG-16来提取图像特征,这里就不过多说明了。


      四、俯视图计算候选区域

      物体投射到俯视图时,保持了物体的物理尺寸,从而具有较小的尺寸方差,这在前视图/图像平面的情况下不具备的。在俯视图中,物体占据不同的空间,从而避免遮挡问题。

      在道路场景中,由于目标通常位于地面平面上,并在垂直位置的方差较小,可以为获得准确的3Dbounding box提供良好基础。

      候选区域网络就是熟悉的RPN。参考


      五、特征整合

      把候选区域分别与提取的特征进行整合

      image.gif

      流程:

        • a. 把俯视图候选区域投影到前视图和图像中
        • b. 经过ROI pooling整合成同一维度


        六、特征融合

        有了整合后的数据,需要对特征进行融合,最终得到类别标签、3D边界框。

        作者介绍了三种不同的融合方式,分别为

        • a、Early Fusion 早期融合
        • b、Late Fusion 后期融合
        • c、Deep Fusion 深度融合。

        各自的结构如下图所示。

        image.gif

        上图中的紫色圆圈中M是表示 :基于元素的均值。C是表示:串接。

        最终选择了Deep Fusion 深度融合。融合的特征用作:分类任务(人/车/...)、更精细化的3D Box回归(包含对物体朝向的估计)。


        七、模型效果

        和其他模型对比的数据:

        image.gif编辑

        image.gif

        检测效果:

        image.gif


        八、模型代码

        代码地址:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

        作者使用KITTI提供的原始数据,点击链接

        image.gif

        上图是用于原型制作的数据集 。

        我们使用了[同步+校正数据] + [校准](校准矩阵)+ [轨迹]()

        所以输入数据结构是这样的:

        image.gif

        运行 src/data.py 后,我们获得了 MV3D 网络所需的输入。它保存在kitti中。

        image.gif

        上图是激光雷达俯视图(data.py后)

        image.gif

        上图是将 3D 边界框投影回相机图像中。

        输入具体数据格式可以参考'data.py' 'data.py' 网址

        本文参考:自动驾驶|3D目标检测:MV3D-Net(一) - 知乎【3D物体检测】MV3D论文和代码解析 - 知乎

        点云深度学习在自动驾驶中的应用——MV3D文章阅读 - 腾讯云开发者社区-腾讯云


        image.gif

        论文地址:Multi-View 3D Object Detection Network for Autonomous Driving

        代码地址:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

        本文只提供参考学习,谢谢。

        相关文章
        |
        3月前
        |
        机器学习/深度学习 资源调度 算法框架/工具
        AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
        AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
        254 10
        |
        3月前
        |
        机器学习/深度学习 边缘计算 算法
        SEENN: 迈向时间脉冲早退神经网络——论文阅读
        SEENN提出一种时间脉冲早退神经网络,通过自适应调整每个样本的推理时间步数,有效平衡脉冲神经网络的准确率与计算效率。该方法基于置信度判断或强化学习策略,在保证高精度的同时显著降低能耗与延迟,适用于边缘计算与实时处理场景。
        213 13
        |
        3月前
        |
        机器学习/深度学习 缓存 算法
        2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
        2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
        448 1
        |
        6月前
        |
        JSON 编解码 API
        Go语言网络编程:使用 net/http 构建 RESTful API
        本章介绍如何使用 Go 语言的 `net/http` 标准库构建 RESTful API。内容涵盖 RESTful API 的基本概念及规范,包括 GET、POST、PUT 和 DELETE 方法的实现。通过定义用户数据结构和模拟数据库,逐步实现获取用户列表、创建用户、更新用户、删除用户的 HTTP 路由处理函数。同时提供辅助函数用于路径参数解析,并展示如何设置路由器启动服务。最后通过 curl 或 Postman 测试接口功能。章节总结了路由分发、JSON 编解码、方法区分、并发安全管理和路径参数解析等关键点,为更复杂需求推荐第三方框架如 Gin、Echo 和 Chi。
        |
        7月前
        |
        人工智能 算法 异构计算
        阿里云基础网络技术5篇论文入选全球网络顶会NSDI
        近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
        362 7
        阿里云基础网络技术5篇论文入选全球网络顶会NSDI
        |
        7月前
        |
        canal 负载均衡 智能网卡
        阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
        阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
        1215 2
        |
        9月前
        |
        前端开发 Java 关系型数据库
        基于ssm的网络直播带货管理系统,附源码+数据库+论文
        该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
        295 10
        |
        SQL 安全 网络安全
        网络安全与信息安全:知识分享####
        【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
        280 17
        |
        SQL 安全 网络安全
        网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
        随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
        232 10