论文阅读:Object Classification Using CNN-Based Fusion of Vision and LIDAR in Autonomous Vehicle

简介: 论文阅读:Object Classification Using CNN-Based Fusion of Vision and LIDAR in Autonomous Vehicle

前言

先来看看题目的中文解释叭,即在自动驾驶环境中使用CNN-Based融合视觉和激光雷达进行物体分类。我们常见的物体分类算法大多是纯视觉的,那么今天我分享的文章呢,是融合了视觉和激光雷达传感器进行物体分类。写此文章也是最近刚好一门课上要求阅读两篇论文进行讲解,恰巧遇此活动,于是在此记录下来📝📝📝


这篇论文是18年SCI一区的一篇论文,对于刚刚接触传感器融合的同学来说我认为还是很友好的,可以很容易的理解传感器融合的大致思想。

论文

背景

如今自动驾驶可以说是很火的一个方向了,关注度越来越高。这也是因为自动驾驶车辆的安全性和性能、交通效率和节能方面展现了巨大潜力。同时,社会层面也推出了各式各样的挑战赛和项目,如智能汽车未来挑战赛”、谷歌的自动驾驶汽车等,这些都极大的推动了自动驾驶的发展。

论文中先是提到了自动驾驶应该具有怎样的性能,然后提出目前物体分类的两种主流方法,然后总结了纯视觉方案和纯激光雷达方案的局限性,进而提出将视觉传感器和激光雷达融合的方案。87ad687e42d23ca051a99e52a12850c1.png

系统架构✨✨✨

  本论文使用的车是猛士,其硬件的的系统架构和各传感器的相关参数如下:ee2d95debef5b4fa9dee7451bc6280ac.png

核心思想✨✨✨

 这篇文章的核心思想也比较容易理解,就是我们将得到的激光雷达点云数据先转换成稀疏的深度图【这里可能需要一些四系坐标转换的知识】】,之后再通过双边滤波上采样得到稠密的深度图【滤波就可以看作一个卷积操作】,最后的会将得到的深度图喂到AlexNet网络中。【对此网络不清楚的戳了解详情】核心思想的图示如下:5e579ad3704d15311431218ef7b6b53b.png

实验结果✨✨✨

下图左图显示了使用 RGB-LIDAR 和 RGB 方法在不同迭代下训练数据集的平均每秒帧数 (FPS)RGB-LIDAR的平均 FPS 从 100 次迭代持续下降到 3000 次迭代,并在 3000 次后趋于平稳。这些值发生了很大变化,使用 RGB-LIDAR 方法最终达到了大约 110 FPS,使用 RGB 方法,这些值最终大约 达到了120 FPS,其实这两个是相差不多的。再来看右表,它提供了基于 RGB-LIDAR 方法的分类预测结果的混淆矩阵。主对角线上的值是正确分类项目的百分比,其余是未分类项目和对应的错误百分比。我们发现主要错误发生在“其他”被归类为“卡车”,而“卡车”被归类为“其他”上。我们认为这两个类对象在当前数据集中非常相似,因为它们的背景也非常相似。

57de0e275699c93345bbd2e4fac0db8a.png

下图第一行三个图显示相应的平均精度。所有曲线都显示出相似的趋势,并且平均准确度在大约 1000 次迭代后趋于稳定。然而,带有 RGB-LIDAR 的效果一直表现更好。尤其是在使用小集合(400 张图像)进行训练时,使用所提出的方法,随着提供的信息深度的增加,当训练迭代次数达到 1000 以上时,多传感器 RGB-LIDAR 数据显示出比纯 RGB 数据高约 5% 的精度。


下图第二行列出了数据集组合的相应平均损失。 随着迭代次数的增加,平均损失不断下降。 当数据集为400张图像时并且使用高于 500 的迭代次数以及,AlexNet 的损失降至零。 多传感器 RGB-LIDAR 始终比 RGB 训练集更快地收敛。

image.png

  在 KITTI 基准数据集上的实验结果表明,与基于 RGB 的单一模型相比,RGB-LIDAR 数据可以达到更低的损失和更高的平均精度。最终分类器的平均准确率可以达到最大值 96%。这意味着,通过附加的高级 LIDAR 功能,我们可以提高分类器的准确率。


论文下载

下载地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8331162🥗🥗🥗

相关文章
|
机器学习/深度学习 算法 数据可视化
深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
 过去几年,在经典数据集PASCAL上,物体检测的效果已经达到 一个稳定水平。效果最好的方法是融合了多种低维图像特征和高维上 下文环境的复杂集成系统。在这篇论文里,我们提出了一种简单并且 可扩展的检测算法,可以在VOC2012最好结果的基础上将mAP值提 高30%以上——达到了53.3%。
147 0
深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
|
4月前
|
机器学习/深度学习 网络架构 计算机视觉
CNN经典网络模型之GoogleNet论文解读
GoogleNet,也被称为Inception-v1,是由Google团队在2014年提出的一种深度卷积神经网络架构,专门用于图像分类和特征提取任务。它在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛中取得了优异的成绩,引入了"Inception"模块,这是一种多尺度卷积核并行结构,可以增强网络对不同尺度特征的感知能力。
216 0
|
算法 数据可视化 机器人
Object SLAM: An Object SLAM Framework for Association, Mapping, and High-Level Tasks 论文解读
Object SLAM: An Object SLAM Framework for Association, Mapping, and High-Level Tasks 论文解读
71 0
|
数据可视化 数据挖掘 测试技术
【计算机视觉】Open-Vocabulary Object Detection 论文工作总结
Open-Vocabulary Object Detection (OVD)可以翻译为**“面向开放词汇下的目标检测”,**该任务和 zero-shot object detection 非常类似,核心思想都是在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/ target)数据的识别和检测,除了核心思想类似外,很多论文其实对二者也没有进行很好的区分。
|
存储 算法 计算机视觉
【检测|RCNN系列-5】Light-Head R-CNN的稳精度、提速度之路(附论文获取方式)
【检测|RCNN系列-5】Light-Head R-CNN的稳精度、提速度之路(附论文获取方式)
125 0
|
机器学习/深度学习 编解码 并行计算
深度学习论文阅读目标检测篇(七)中文版:YOLOv4《Optimal Speed and Accuracy of Object Detection》
大多数基于 CNN 的目标检测器基本上都仅适用于推荐系统。例 如:通过城市摄像头寻找免费停车位,它由精确的慢速模型完成,而 汽车碰撞警报需要由快速、低精度模型完成。改善实时目标检测器的 精度,使其能够不仅可以用于提示生成推荐系统,也可以用于独立的 流程管理和减少人力投入。传统 GPU 使得目标检测可以以实惠的价 格运行。最准确的现代神经网络不是实时运行的,需要大量的训练的 GPU 与大的 mini bacth size。我们通过创建一个 CNN 来解决这样的 问题,在传统的 GPU 上进行实时操作,而对于这些训练只需要一个 传统的 GPU。
245 0
|
机器学习/深度学习 编解码 并行计算
深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》
 有大量的技巧可以提高卷积神经网络(CNN)的精度。需要在大 数据集下对这种技巧的组合进行实际测试,并需要对结果进行理论论 证。某些技巧仅在某些模型上使用和专门针对某些问题,或只针对小 规模的数据集;而一些技巧,如批处理归一化、残差连接等,适用于 大多数的模型、任务和数据集。我们假设这种通用的技巧包括加权残 差连接(Weighted-Residual-Connection,WRC)
304 0
|
机器学习/深度学习 存储 编解码
计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性
在本文中研究了Self-Attention在学习鲁棒表征中的作用。本研究是基于Vision Transformer中新出现的Visual Grouping的特性进行深入研究的,Visual Grouping也表明Self-Attention可能是通过改进的中层表征来促进鲁棒性。
132 0
|
机器学习/深度学习 算法 数据可视化
计算机视觉论文速递(四)Dynamic Sparse R-CNN:Sparse R-CNN升级版,使用ResNet50也能达到47.2AP
 首先,Sparse R-CNN采用一对一标签分配方案,其中匈牙利算法对每个Ground truth只匹配一个正样本。这种一对一标签分配对于学习到的proposal boxes和Ground truth之间的匹配可能不是最佳的。为了解决这一问题,作者提出了基于最优传输算法的动态标签分配(DLA),在Sparse R-CNN的迭代训练阶段分配递增的正样本。随着后续阶段产生精度更高的精细化proposal boxes,在后续阶段对匹配进行约束,使其逐渐松散。
131 0
|
机器学习/深度学习 传感器 编解码
深度学习论文阅读目标检测篇(四)中文版:YOLOv1《 You Only Look Once: Unified, Real-Time Object Detection》
我们的统一架构非常快。我们的基础YOLO模型以45帧/秒的速度实时处理图像。FastYOLO是YOLO的一个较小版本,每秒能处理惊人的155帧图像,同时实现其它实时检测器两倍的mAP。与最先进的检测系统相比,YOLO虽然存在较多的定位错误,但很少将背景预测成假阳性(译者注:其它先进的目标检测算法将背景预测成目标的概率较大)。最后,YOLO能学习到目标非常通用的表示。当从自然图像到艺术品等其它领域泛化时,它都优于其它检测方法,包括DPM和R-CNN。
313 0

热门文章

最新文章