最新鱼眼BEV感知 | FPNet：面向泊车场景的失真不敏感多任务算法（TIV 2022）(上)-阿里云开发者社区

摘要

泊车场景下的环视鱼眼感知是自动驾驶的基础和关键。泊车场的环境条件不同于一般的公共数据集，如光线不佳和模糊，这对感知性能有很大的影响。大多数现有的基于公共数据集的网络也会受到鱼眼畸变的影响，在这些代客泊车场景中得到次优结果。本文介绍了一种新的大规模鱼眼数据集 FPD，旨在促进对现实环境中各种环视泊车情况的研究。值得注意的是，作者的FPD对不同的环视感知任务都显示出优秀的特点。此外，作者还提出了实时的失真不敏感的多任务鱼眼感知网络(FPNet) ，通过增强鱼眼失真操作和多任务轻量级设计来改善环视鱼眼 BEV 感知。大量的实验验证了作者的方法的有效性和数据集的异常可推广性。

介绍

作为开发高效、安全的高级驾驶辅助系统(ADAS)[1]-[3]的重点，代客泊车近年来越来越受到工业界和研究界的关注[4]-[6]。在各种驾驶辅助应用中，代客泊车是一项必不可少而又具有挑战性的任务。下图1显示了代客泊车期间的几个具有挑战性的场景[7]-[9]。

此外，泊车场景中的环境条件，如光线不佳和模糊，显著增加了稳健的环境感知的难度[10] ，[11]。与高速公路和城市地区等相对清晰的场景不同，代客泊车旨在将车辆驶入泊车位等下车区域，这些区域在感知上面临着很高的要求[12]。

最近的进展[13] ，[14]展示了用便宜的车载相机取代激光雷达的潜力，这些相机可以在大多数现代车辆上轻易获得[15] ，[16]。特别是，环视鱼眼相机可以提供比针孔相机更广的视场(FoV)[17] 。此外，四个环视鱼眼相机覆盖360度的感知，这弥补了针孔相机的近场感知不足，尤其是在代客泊车的情况下[18]。然而，鱼眼镜片通常表现出明显的径向畸变，导致大量的外观畸变[18] ，[19] ，使周围的识别复杂化。为了充分利用鱼眼范式，更多的研究人员开始探索鱼眼环视感知，如车辆或行人的位置和姿势信息[12] ，[20]。

当前的数据集，如 KITTI [21] ，Cityscapes [22]等，大多采用针孔相机捕捉图像，可以在城市，农村或高速公路驾驶场景下轻松获得清晰可辨的图像。有少量用于自动驾驶的鱼眼数据集[23] ，[24] ，这有助于鱼眼环视的快速发展。Woodscape [23]和 KITTI360[24]收集了大规模的鱼眼数据集，用于地面上的不同感知任务。然而，这些数据集没有充分强调代客泊车场景和鱼眼图像格式。因此，在公共针孔数据集或鱼眼数据集上训练的模型可能显示出次优的性能，因为缺乏足够的训练样本，特别是对于泊车场景。为了扩展代客泊车场景下具有不同遮挡和姿势的环视鱼眼感知任务图像，作者提供了第一个被称为鱼眼泊车数据集(FPD)的泊车场景鱼眼数据集。数据集包括下面几个属性：

拥有超过40万张鱼眼图像的大规模数量；
不同泊车场、不同时段及不同泊车条件的高度多样化；
过滤噪音及冗余图像的高质素；
不同感知任务的多种标注，例如2D目标检测、3D目标检测、 BEV 感知、深度估计等。

与其他公共自动驾驶数据集[21] ，[25] ，[26]不同，作者的 FPD 数据集侧重于代客泊车环视感知任务，弥补了处理现实世界泊车场场景研究的空白。此外，作者提供了FPD的基线，并提出了实时失真不敏感的多任务网络鱼眼感知网络(FPNet) ，特别是环视鱼眼感知任务，包括2D目标检测，单目3D目标检测，BEV 感知和单目密度深度估计。该网络实现了轻量级和准确性之间的平衡，此外还有一个特殊的模块来解决鱼眼畸变。

作者的贡献总结如下:

作者建立了第一个鱼眼泊车数据集 FPD，专注于环视鱼眼感知，包括2D目标检测、3D目标检测、 BEV 感知和深度估计。作者贡献的FPD包括超过40万鱼眼图像，并包含有吸引力的特点，为泊车场景。
作者提出了作者的FPD的基准: 对失真不敏感的多任务框架 FPNet 用于环视感知任务，特别是 BEV 感知任务。FPNet 利用特定的失真模块和轻量级设计实现了实时性、失真不敏感性和准确性。
综合实验验证了作者收集的FPD数据集的实用性和FPD网络的有效性。

鱼眼泊车数据集

本部分详细介绍了作者的鱼眼泊车数据集(FPD) ，包括数据采集和标注过程、数据集描述和显著特征。

数据收集

为了确保自动驾驶场景的多样性，作者共收集了三个城市，超过100个泊车场，两个时段(白天和夜间) ，并从激光雷达捕捉到400多个视频和点云序列。下图2显示了几个作者收集的代客泊车场景的真实鱼眼图像。

具体来说，作者的主激光雷达采用了 RoboSense RS-Ruby，它具有128线，10Hz 的捕获频率，360度水平视场和 -25至 + 15度垂直视场。此外，作者选择了四个纵目鱼眼 RGB 相机，分辨率为1920 × 1280，捕捉频率为20Hz。下图3演示了这些传感器的安装位置及其生成的图像或点云的性能。

在数据记录过程中，系统对齐了相机视频和激光雷达点云序列之间的时间戳，符合以下标注要求。除此之外，作者进一步进行传感器的标定，过程分为以下三个步骤。首先，作者可以直接根据镜头的畸变查找表中提供的初始工厂设置来计算相机的内参。其次，作者通过测量设备实现激光雷达和基于自车坐标系的相机的外参(x，y，z，俯仰角，偏航角，滚动角)。再次，通过对投影激光雷达点和图像语义的对齐，进一步校正了相机的外参。如下图5所示，作者通过上述标定将 LiDAR 点投影到图像平面，然后手动调整相机的外参以匹配投影点和语义内容。

为了覆盖泊车场的各种真实场景，作者人为地安排了各种驾驶场景来收集数据，如图1所示的汽车会车、汽车交叉口相遇和人员环绕一周等，这些都是自动泊车任务中常见但关键的情况。

数据标注

作者以与 KITTI 数据集相同的方式标注数据集[21] ，通过在每个目标的完整点云体周围画一个紧密的边界框。对于冗余的标注，作者并没有涵盖所有目标的连续移动过程。相反，作者删除相似的片段，并用三到五帧的间隔对数据进行标注。此外，作者限制可见范围(15米内) ，所以作者放弃太远的目标。对于被遮挡的目标，如果遮挡率小于80% ，通过根据标注者的经验想象完整的3D包围框来保留3D框。下图6显示了标注标签的几个示例。作者的标注包括八个类别，包括汽车，卡车，行人，骑手，婴儿车，交通锥，摩托车和不泊车标志。

下图4展示了8个类别的标注演示，其中蓝色边界框表示3D 标注的2D 可视化，从点云平面投影到图像平面。

黄色边界框表示蓝色投影点的外部边界矩形，作为作者的2D目标检测，如图6(b)所示。此外，在稀疏深度图的校正和畸变参数的辅助下，作者将点云投影到单目图像上。然后作者采用深度补全方法 IP-Basic [90]来创建更加稳健的深度真值，如图6(c)所示。

数据集描述

下表2和图7说明了作者的FPD的统计数据。为了统计，作者获得超过400,000个数据，其中一个数据包含四个鱼眼图像和一个带标注的点云。

此外，一个数据伴随着一个内参，一个外参和一个鱼眼畸变参数。作者可以通过内、外和鱼眼畸变参数对图像进行点云标注，得到2D目标包围框和深度真值。此外，作者将 FPD 分为训练，验证和测试集，比例为5:3:2，数量为210,000,126,000和84,000。白天和夜间场景的比例为2:1。此外，每个泊车场平均有4000个数据组成了超过400,000个标注，其中最常见的类别表示汽车、行人和交通锥，如图7所示。

数据集特性

作为第一个大规模的真实世界的鱼眼数据集，作者的 FPD 显示了以下优秀的特性:

第一个用于泊车场景的鱼眼数据集: 作者提供了第一个鱼眼数据集 FPD，它集中在泊车场景中的多个自动驾驶任务，也不同于公共数据集的自然场景。泊车场景中的环境条件，如光线不佳和模糊，显著增加了检测难度。关于各种棘手的泊车场景，FPD 可以促进研究处理现实世界的泊车问题。
数量巨大: 到目前为止，作者的 FPD 包含了超过200个小时的泊车场景视频和点云序列的40多万个数据。在未来，作者将继续收集不同的泊车场，以丰富现有的数据集。
高质量、多样化: 作者的FPD覆盖三个城市，一百多个不同时期的泊车场，以及不同的泊车案例。此外，作者精心挑选高质量的图像和高分辨率的点云，确保数据集的优势。
多用途: 作为一个基于点云的数据集，FPD的潜力不仅在于三个任务(即2D目标检测、单目3D目标检测和深度估计) ，还在于其他视觉任务，如点云3D目标检测、2D或3D语义分割、视频目标检测。因此，FPD 是多用途的多种任务。

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

最新鱼眼BEV感知 | FPNet：面向泊车场景的失真不敏感多任务算法（TIV 2022）(上)

摘要

介绍

相关工作

自动驾驶数据集

单目感知任务

不同成像传感器的视觉感知

多任务视觉感知

鱼眼泊车数据集

数据收集

数据标注

数据集描述

数据集特性

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

最新鱼眼BEV感知 | FPNet：面向泊车场景的失真不敏感多任务算法（TIV 2022）(上)

摘要

介绍

相关工作

自动驾驶数据集

单目感知任务

不同成像传感器的视觉感知

多任务视觉感知

鱼眼泊车数据集

数据收集

数据标注

数据集描述

数据集特性

热门文章

最新文章

相关课程

相关电子书