一、本文介绍
本文记录的是利用小波卷积WTConv
模块优化YOLOv11
的目标检测网络模型。WTConv
的目的是在不出现过参数化的情况下有效地增加卷积的感受野,从而解决了CNN
在感受野扩展中的参数膨胀问题。本文将其加入到深度可分离卷积中,有效降低模型参数量和计算量,并二次创新C3k2,==使模块更好地捕捉低频特征,增强网络性能。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、小波卷积WTConv介绍
Wavelet Convolutions for Large Receptive Fields
2.1 出发点
- 解决卷积核增大的问题:在卷积神经网络(CNNs)中,为了模仿视觉Transformer(ViTs)自注意力块的全局感受野,尝试增加卷积核大小,但这种方法在达到全局感受野之前就遇到了上限并饱和,且会导致过参数化。
- 利用信号处理工具:思考能否利用信号处理工具在不出现过参数化的情况下有效地增加卷积的感受野,从而提出利用小波变换(Wavelet Transform,WT)来解决该问题。
2.2 原理
2.2.1 基于小波变换的卷积操作
- 小波变换的卷积表示:采用
Haar小波变换(Haar WT)
,它在一个空间维度(宽度或高度)上的一级变换可通过特定的深度卷积核和下采样操作实现。例如,在2D情况下,使用一组特定的四个滤波器进行深度卷积操作,这些滤波器包括一个低通滤波器$f{LL}$和三个高通滤波器$f{LH}$、$f{HL}$、$f{HH}$。 - 逆小波变换:由于这些滤波器构成正交基,逆小波变换可通过转置卷积实现。
- 级联小波分解:通过递归地分解低频分量来实现,每一级分解都会增加频率分辨率并降低低频的空间分辨率。
2.2.2 小波域的卷积操作
- 分离频率分量卷积:首先使用
WT
对输入的低频和高频内容进行滤波和降尺度,然后在不同的频率映射上进行小核深度卷积,最后使用逆WT构建输出。这个过程不仅分离了频率分量之间的卷积,还允许较小的核在原始输入的较大区域上操作,从而增加了感受野。 - 多级别操作:采用级联原则,对每一级的低频分量进行WT分解,然后进行卷积操作,最后将不同频率的输出进行组合。组合时利用WT和其逆是线性操作的性质,将各级卷积的结果求和。
2.3 结构
- 作为深度卷积的替代层:
WTConv
被设计为可以直接替换深度卷积层,能够在任何给定的CNN架构中使用,无需额外修改。
2.4 优势
- 参数增长缓慢:对于$k×k$的感受野,其可训练参数的数量仅与$k$成对数增长,相比一些最近的方法(参数增长为二次方),能够在不出现过参数化的情况下获得非常大的感受野。
- 更好地捕捉低频:通过对输入低频分量的重复
WT
分解,强调了低频信息,使得WTConv层
能够比标准卷积更好地捕捉低频,这与已知的卷积层通常对高频响应的情况形成补充。
论文:https://arxiv.org/pdf/2407.05848
源码:https://github.com/BGU-CS-VIL/WTConv
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: