一、本文介绍
本文记录的是利用FSAS
模块优化YOLOv11
的目标检测网络模型。FSAS
全称为:Frequency domain-based Self-Attention Solver
,其结合了频域计算的高效性和卷积操作的特性,有效地降低了注意力计算的复杂度。在加入到v11
网络中,提升图像特征的表示能力,特别是在处理高分辨率图像时能够减少计算成本并降低噪声影响。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、FSAS介绍
Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring
2.1 出发点
- 降低复杂度:在视觉Transformer中,计算缩放点积注意力的空间复杂度和时间复杂度较高,分别为$O(N^{2})$和$O(N^{2}C)$,当图像分辨率和提取的补丁数量较大时,计算成本难以承受。虽然可以通过下采样操作或减少补丁数量来缓解,但会导致信息丢失。因此需要一种更高效的方法来估计注意力图,以降低复杂度。
- 利用频域特性:基于卷积定理,即空间域中两个信号的相关性或卷积等同于频域中它们的逐元素乘积。作者思考能否在频域中通过逐元素乘积操作而不是在空间域中计算矩阵乘法来有效地估计注意力图。
2.2 原理
2.2.1 基于卷积操作的转换
首先注意到缩放点积注意力计算中$QK^{\top}$的每个元素是通过内积获得的,基于此,如果对$q{i}$和所有的$k{j}$分别应用重塑函数,$QK^{\top}$的所有第$i$列元素可以通过卷积操作获得。
2.2.2 频域转换与计算
根据卷积定理,进一步在频域中进行计算。通过对估计的特征$F{q}$和$F{k}$应用快速傅里叶变换(FFT)
,并在频域中估计它们的相关性$$A=\mathcal{F}^{-1}\left(\mathcal{F}\left(F_{q}\right) \overline{\mathcal{F}\left(F_{k}\right)}\right)$$其中$\mathcal{F}(.)$表示FFT
,$\mathcal{F}^{-1}(\cdot)$表示逆FFT
,$\overline{\mathcal{F}(.)}$表示共轭转置操作。
最后通过$V{a t t}=\mathcal{L}(A) F{v}$估计聚合特征,其中$\mathcal{L}(\cdot)$是层归一化
操作。
2.3结构
如图(b)
所示,详细网络结构如下:
- 卷积层获取特征:首先通过
1×1
点卷积和3×3
深度卷积获得$F{q}$、$F{k}$和$F_{v}$。 - 频域转换层:对$F{q}$和$F{k}$应用
FFT
进行频域转换。 - 相关性计算层:在频域中计算相关性$A$。
- 特征聚合层:通过层归一化和与$F{v}$的计算得到$V{a t t}$。
- 输出层:最后通过$X{a t t}=X + Conv{1×1}(V{a t t})$生成
FSAS
的输出特征,其中$Conv{1×1}(\cdot)$是1×1像素的卷积。
2.4 优势
- 复杂度降低
- 空间复杂度:
FSAS
的空间复杂度降低到$O(N)$,相比原始缩放点积注意力的$O(N^{2})$显著降低。 - 时间复杂度:时间复杂度降低到$O(N log N)$,对于每个特征通道,大大减少了计算量。
- 空间复杂度:
- 性能提升
- 与空间域方法比较:在GoPro数据集上的实验表明,与在空间域计算缩放点积注意力的方法(如Swin Transformer)相比,
FSAS
能生成更好的去模糊结果。例如,空间域方法的PSNR值比FSAS + DFFN低0.27dB。 - 与仅使用FFN的方法比较:与仅使用FFN的基线方法相比,使用
FSAS
的PSNR值提高了0.42dB,能更好地去除模糊,边界恢复得更好。
- 与空间域方法比较:在GoPro数据集上的实验表明,与在空间域计算缩放点积注意力的方法(如Swin Transformer)相比,
论文:https://arxiv.org/pdf/2211.12250
源码:https://github.com/kkkls/FFTformer
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: