一、本文介绍
本文记录的是利用Haar小波下采样对RT-DETR网络进行改进的方法研究。传统的卷积神经网络中常用的最大池化
、平均池化
和步长为2的卷积
等操作进行下采样可能会导致信息丢失,为了解决信息丢失问题,HWD
作者受无损信息变换方法的启发,引入Haar小波变换
到下采样模块中,==旨在尽可能地保留图像信息,以便后续层能够提取更具判别性的特征,从而提高模型性能。==
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、Haar小波下采样原理
Haar
小波下采样:一个简单但有效的语义分割下采样模块。
2.1、原理
HWD模
块由两个主要块组成:无损特征编码块和特征表示学习块。
- 无损特征编码块:利用
Haar小波变换层
有效地降低特征图的空间分辨率,同时保留所有信息。Haar小波变换
是一种广泛认可的、紧凑的、二进的和正交的变换,在图像编码、边缘提取和二进制逻辑设计中有着广泛的应用。当对二维信号(如灰度图像)应用Haar小波变换
时,会产生四个分量,每个分量的空间分辨率是原始信号的一半,而特征图的通道数则变为原来的四倍。这意味着Haar小波变换
可以将部分空间维度的信息编码到通道维度中,而不会丢失任何信息。 - 特征表示学习块:由标准的
1×1卷积层
、批量归一化层
和ReLU激活函数
组成。该块用于调整特征图的通道数,使其与后续层对齐,并尽可能地过滤冗余信息,使后续层能够更有效地学习代表性特征。
2.2、优势
- 提高分割性能:通过在三个不同模态的图像数据集上进行的广泛实验表明,
HWD模块
能够有效提高分割性能。在Camvid数据集上,与七种最先进的分割架构相结合,使用HWD模块的模型在平均交并比(mIoU)上相比基线有1 - 2%的提升,特别是对于小尺度对象(如行人、自行车、围栏和标志符号等)的性能有显著改善。 - 减少信息不确定性:利用结构相似性(SSIM)、峰值信噪比(PSNR)和提出的特征熵指数(FEI)评估下采样对特征图的有效性,结果表明HWD模块能够提高SSIM(7.78%)和PSNR(2.14 dB),并大幅降低信息不确定性。在所有21个模型中,HWD模块相比原始下采样方法,使特征不确定性降低了58.2%(FEI)和46.8%(FEI_B)。
- 通用性和易用性:
HWD模块
可以直接替换现有分割架构中的现有下采样方法(如最大池化、平均池化或步幅卷积),而不会引入额外的复杂性,并且能够显著提高分割性能。 - 在参数和计算量上的平衡:与传统的下采样方法(如平均池化和步幅卷积)相比,
HWD模块
在参数和浮点运算(FLOPs)上提供了一种平衡。虽然平均池化在参数和FLOPs方面表现更好,但HWD模块
所需的参数少于步幅卷积的两倍,并且当通道数C大于一时,步幅卷积的计算开销超过HWD模块
。 - 对浅层CNN的有效性:在MOST数据集上的实验表明,当使用ResNet - 18和ResNet - 34作为特征提取的骨干网络时,HWD模块显著提高了分割性能,这表明浅层CNN对信息的需求更高,而
HWD模块
能够满足这种需求。
HWD模块与其他下采样模块对比:
保留信息能力:传统的下采样方法(如最大池化、平均池化和步幅卷积等)会导致信息丢失,而HWD模块
通过引入Haar小波变换
,能够在降低特征图空间分辨率的同时尽可能保留信息。
论文:https://doi.org/10.1016/j.patcog.2023.109819
源码:https://github.com/apple1986/HWD
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: