RV融合新SOTA!RADIANT:全新雷达-图像关联网络的3D检测

简介: 作为一种能够直接测量深度的传感器,其相较于Lidar存在较大的误差,因此利用雷达本身精度难以精确地将雷达结果与单目方法的3D估计相关联。本文提出了一种融合网络RADIANT来解决雷达-摄像机关联的挑战。通过预测雷达点到真实目标中心点的3D偏移,随后利用修正后的雷达点修正图像预测结果,使得网络在特征层和检测层完成融合。

动机



作为一种能够直接测量深度的传感器,其相较于Lidar存在较大的误差,因此利用雷达本身精度难以精确地将雷达结果与单目方法的3D估计相关联。本文提出了一种融合网络RADIANT来解决雷达-摄像机关联的挑战。通过预测雷达点到真实目标中心点的3D偏移,随后利用修正后的雷达点修正图像预测结果,使得网络在特征层和检测层完成融合。

贡献



  1. 通过增强毫米波点云获得3D目标的中心位置
  2. 使用增强后的毫米波点云完成相机-雷达的检测结果关联
  3. 在多个单目SOTA模型中验证了结构有效性并取得SOTA

背景&问题定义



正雷达样本点


对于目标检测的训练,关键就是:候选点的选择、定义正负样本,FCOS3D将每个像素点作为目标候选点,而正样本点定义为GT目标中心周围的区域内。同样,对于本文,我们将每个雷达反射点作为目标的候选点,将成功与目标相关联的雷达像素点作为正样本点。但是,由于毫米波反射点的模糊性(存在多径干扰)和不准确性(检测的分辨率不高)等问题,导致反射点许多无法反映真实的目标位置框内,同时目前的主流多模态数据集(radar+camera)没有提供point-wise(点云级别)的标记,以上两种原因导致了:现有的毫米波反射点无论是精度上还是标注上,都需要做一些工作。


由此,作者如此解决:

  1. 3D框内部的点云当然归属于对应目标,但是对于外部点云,作者设置距离阈值将一定范围内的点云考虑在内
  2. 同时为了防止误召回,上一步召回的点云还需要再径向速度上与分配的GT目标相差在一定范围内


Radar Depth Offset


640.png


z为反射点相关联的目标深度,z_r为反射点的原始测量深度


细化动机:


  1. 单目3D检测性能一直受到深度估计不精确问题的裹挟
  2. 毫米波雷达能提供相较相机更精确的深度,但是其稀疏性、穿透性导致其很难反映出目标真实中心,甚至出现幽灵点,反射点到物体中心的偏移是未知的,但是又是关键的,我们通常需要通过物体的中心特征回归目标的各类属性
  3. 预测的偏移不仅要包括深度偏移,还有image-plane的投影像素偏移,补偿雷达反射点在横向等方向上误差
  4. 因为点云和目标匹配需要类别信息,毫米波用于分类的信息较少(无法通过形状判断)

网络架构


640.png


整体上,作者使用“双流”网络结构,图像、雷达分支分别使用原始FCOS3D网络、引入图像特征的轻量级FCOS3D网络,在Depth Fusion结构中,通过DWN(depth weight net)对两个head预测结果引入可学习的深度加权网络,并在最后预测加权后的目标深度。


我们按照(Backbone, Neck, Heads):分别生成图像预测结果和点云预测结果, (Depth Fusion Modules):修正图像预测结果,两个部分介绍细节:

Backbone, Neck, Heads

640.png


更进一步,对图像分支采用原始FCOS3D网络,不过多介绍。对Radar分支,输入的是投影到image-plane的数据,其中包括深度、坐标、速度、占位掩码(象征点云是否存在于像素中方便后面后处理),在neck部分加入了一些bottleneck瓶颈结构融合图像和雷达数据,解决点云分类能力不足的问题。最后就是在Head上,与图像的各类目标属性回归不同,点云只在其分布的投影像素中,计算类别得分、像素偏移、深度残差(偏移)三个属性。最后的结果形式如下。

640.png


Depth Fusion Module



在得到heads的结果后,这部分的任务就是将两个模态的结果融合,用radar预测的结果修正图像预测结果:

  1. 关联投影后的雷达反射点radar pixels(预测修正后)与图像检测结果
  2. 对关联后的每个radar pixels预测深度可靠性概率
  3. 利用加权后的radar pixels,修正目标的深度,对于目标的尺度、角度等属性不做修改,作者认为是毫米波缺少目标朝向、尺度信息

  • Radar-Camera Association

640.png


由上图,我们已得到两个Heads的输出,我们取图像预测结果的前1000个boxes按照得分,同样,我们也取radar预测结果中满足置信度>T_r的radar pixels用于融合,我们把雷达预测结果先修正:

640.png


修正后,进行关联:匹配要满足以下条件:首先,类别相同,其次投影像素差在一定范围内,最后,深度误差在一定范围内,由此,完成筛选和匹配,假设两个Heads结果分别是M\N个,则复杂度为O(MN)

640.png


  • Depth Weighting Network


上部分完成了radar pixels的筛选和匹配,本部分进行融合

这部分采用可学习的方式,与之对比的是将匹配的radar pixels深度与图像检测的深度进行平均相加这种不可学习的固定方式


640.png

这个网络的目的,就是判断radar pixels是否可信,输出可信度,用于最后的融合。

那么如何规定训练标签呢?


DWN预测的是每个点的置信度,DWN前向完成后,结合图像预测和GT,给予每个点云权重标签,用于训练DWN,DWN仅根据点云head输出特征、原始深度等信息预测,如果GT与radar更接近,α标记为1,反之和图像预测的结果更接近则为0.


  • Fused Depth Calculation

640.png


上一步预测的radar pixels权重,这一步根据权重融合加权得到结果,Tα就是阈值,如果任意点云的深度权重阈值<阈值,则只考虑相机的预测结果


实验


640.png



作者对融合方式做了消融实验,其中None是不加入雷达反射点,Average代表平均反射点与图像预测深度,DWN是作者提出的深度权重网络。

640.png


由上图,最上面的Table1,表述了从由近到远过程中,图像、原始雷达、修正后雷达(中间)的预测误差,可以看到经过offset的修正后,雷达的深度预测值在近处的修正作用占比更大。这里不要被作者的数据吓到,因为这是丈量雷达反射点到目标中心偏移误差,因为雷达反射点本身就分布在非车身中心。


上图中的Figure 4,分别代表:融合后目标深度预测值和雷达反射点之间的偏差,GT目标深度和雷达反射点之间的偏差,两者的偏差分布整体是相似的,预测结果的偏差分布更加均匀。

640.png


Table2是NuScenes数据集上的实验结果对比,作者基于FOCOS3D, PGD两类单目检测模型改进,都得到了较大的提升,提升体现在mATE,AP两个数据指标上。同时,相比经典的centerfusion,也有较大的提升。


640.png

Figure 5中,分散的反射点通过预测offset,集中于目标的中心,目标的深度也得到了进一步的修正。


简单总结:



  1. 作者提出的这种关联、更新方式,有效改善了单目单帧的目标深度预测能力,提出了细粒度更高的标记NuScenes毫米波点云的一种方式
  2. 根据具体场景,根据传感器特性,在feature-level和decision-level上多方式非对称融合往往更加有效
  3. 作者基于image-plane,选择的投影方式导致了点云偏移预测受限于特征提取方式,事实上雷达点云投影存在遮挡,同时点云稀疏,将其投影到image-plane上导致原本形状进一步丢失,进一步加剧了数据的稀疏性
  4. 作者只通过radar改善了目标的位置性能和平均精度,事实上目标的RCS等信息对于其他属性仍然有一定修正作用


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 数据可视化
基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
本文探讨了在企业数字化转型中,大型概念模型(LCMs)与图神经网络结合处理非结构化文本数据的技术方案。LCMs突破传统词汇级处理局限,以概念级语义理解为核心,增强情感分析、实体识别和主题建模能力。通过构建基于LangGraph的混合符号-语义处理管道,整合符号方法的结构化优势与语义方法的理解深度,实现精准的文本分析。具体应用中,该架构通过预处理、图构建、嵌入生成及GNN推理等模块,完成客户反馈的情感分类与主题聚类。最终,LangGraph工作流编排确保各模块高效协作,为企业提供可解释性强、业务价值高的分析结果。此技术融合为挖掘非结构化数据价值、支持数据驱动决策提供了创新路径。
458 6
基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
|
5月前
|
JSON 监控 API
在线网络PING接口检测服务器连通状态免费API教程
接口盒子提供免费PING检测API,可测试域名或IP的连通性与响应速度,支持指定地域节点,适用于服务器运维和网络监控。
544 0
|
5月前
|
机器学习/深度学习 数据采集 算法
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
本文将BSSNN扩展至反向推理任务,即预测X∣y,这种设计使得模型不仅能够预测结果,还能够探索特定结果对应的输入特征组合。在二元分类任务中,这种反向推理能力有助于识别导致正负类结果的关键因素,从而显著提升模型的可解释性和决策支持能力。
453 42
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
|
5月前
|
监控 算法 安全
基于 C# 基数树算法的网络屏幕监控敏感词检测技术研究
随着数字化办公和网络交互迅猛发展,网络屏幕监控成为信息安全的关键。基数树(Trie Tree)凭借高效的字符串处理能力,在敏感词检测中表现出色。结合C#语言,可构建高时效、高准确率的敏感词识别模块,提升网络安全防护能力。
145 2
|
7月前
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
8月前
|
SQL 数据采集 人工智能
“服务器老被黑?那是你没上AI哨兵!”——聊聊基于AI的网络攻击检测那些事儿
“服务器老被黑?那是你没上AI哨兵!”——聊聊基于AI的网络攻击检测那些事儿
323 12
|
6月前
|
机器学习/深度学习 算法 5G
基于DNN深度神经网络的OFDM+QPSK信号检测与误码率matlab仿真
本内容展示了基于深度神经网络(DNN)的OFDM-QPSK信号检测算法在Matlab2022a中的仿真效果。通过构建包含多层全连接层和ReLU激活函数的DNN模型,结合信号预处理与特征提取,实现了复杂通信环境下的高效信号检测。仿真结果对比了传统LS、MMSE方法与DNN方法在不同信噪比(SNR)条件下的误码率(BER)和符号错误率(SER),验证了DNN方法的优越性能。核心程序涵盖了QPSK调制、导频插入、OFDM发射、信道传输及DNN预测等关键步骤,为现代通信系统提供了可靠的技术支持。
104 0
|
8月前
|
机器学习/深度学习 人工智能 运维
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
305 8
|
9月前
|
机器学习/深度学习 测试技术 网络架构
FANformer:融合傅里叶分析网络的大语言模型基础架构
近期大语言模型(LLM)的基准测试结果显示,OpenAI的GPT-4.5在某些关键评测中表现不如规模较小的模型,如DeepSeek-V3。这引发了对现有LLM架构扩展性的思考。研究人员提出了FANformer架构,通过将傅里叶分析网络整合到Transformer的注意力机制中,显著提升了模型性能。实验表明,FANformer在处理周期性模式和数学推理任务上表现出色,仅用较少参数和训练数据即可超越传统Transformer。这一创新为解决LLM扩展性挑战提供了新方向。
261 5
FANformer:融合傅里叶分析网络的大语言模型基础架构
|
9月前
|
机器学习/深度学习 数据采集 编解码
基于DeepSeek的生成对抗网络(GAN)在图像生成中的应用
生成对抗网络(GAN)通过生成器和判别器的对抗训练,生成高质量的合成数据,在图像生成等领域展现巨大潜力。DeepSeek作为高效深度学习框架,提供便捷API支持GAN快速实现和优化。本文详细介绍基于DeepSeek的GAN技术,涵盖基本原理、实现步骤及代码示例,展示其在图像生成中的应用,并探讨优化与改进方法,如WGAN、CGAN等,解决模式崩溃、训练不稳定等问题。最后,总结GAN在艺术创作、数据增强、图像修复等场景的应用前景。
1060 16

热门文章

最新文章