YOLOv11改进策略【注意力机制篇】| CVPR-2023 FSAS 基于频域的自注意力求解器 结合频域计算和卷积操作 降低噪声影响

简介: YOLOv11改进策略【注意力机制篇】| CVPR-2023 FSAS 基于频域的自注意力求解器 结合频域计算和卷积操作 降低噪声影响

一、本文介绍

本文记录的是利用FSAS模块优化YOLOv11的目标检测网络模型FSAS全称为:Frequency domain-based Self-Attention Solver,其结合了频域计算的高效性和卷积操作的特性,有效地降低了注意力计算的复杂度。在加入到v11网络中,提升图像特征的表示能力,特别是在处理高分辨率图像时能够减少计算成本并降低噪声影响。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、FSAS介绍

Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring

2.1 出发点

  • 降低复杂度:在视觉Transformer中,计算缩放点积注意力的空间复杂度和时间复杂度较高,分别为$O(N^{2})$和$O(N^{2}C)$,当图像分辨率和提取的补丁数量较大时,计算成本难以承受。虽然可以通过下采样操作或减少补丁数量来缓解,但会导致信息丢失。因此需要一种更高效的方法来估计注意力图,以降低复杂度。
  • 利用频域特性:基于卷积定理,即空间域中两个信号的相关性或卷积等同于频域中它们的逐元素乘积。作者思考能否在频域中通过逐元素乘积操作而不是在空间域中计算矩阵乘法来有效地估计注意力图。

2.2 原理

2.2.1 基于卷积操作的转换

首先注意到缩放点积注意力计算中$QK^{\top}$的每个元素是通过内积获得的,基于此,如果对$q{i}$和所有的$k{j}$分别应用重塑函数,$QK^{\top}$的所有第$i$列元素可以通过卷积操作获得。

2.2.2 频域转换与计算

根据卷积定理,进一步在频域中进行计算。通过对估计的特征$F{q}$和$F{k}$应用快速傅里叶变换(FFT),并在频域中估计它们的相关性$$A=\mathcal{F}^{-1}\left(\mathcal{F}\left(F_{q}\right) \overline{\mathcal{F}\left(F_{k}\right)}\right)$$其中$\mathcal{F}(.)$表示FFT,$\mathcal{F}^{-1}(\cdot)$表示逆FFT,$\overline{\mathcal{F}(.)}$表示共轭转置操作。

最后通过$V{a t t}=\mathcal{L}(A) F{v}$估计聚合特征,其中$\mathcal{L}(\cdot)$是层归一化操作。

2.3结构

图(b)所示,详细网络结构如下:

  • 卷积层获取特征:首先通过1×1点卷积3×3深度卷积获得$F{q}$、$F{k}$和$F_{v}$。
  • 频域转换层:对$F{q}$和$F{k}$应用FFT进行频域转换
  • 相关性计算层:在频域中计算相关性$A$。
  • 特征聚合层:通过层归一化和与$F{v}$的计算得到$V{a t t}$。
  • 输出层:最后通过$X{a t t}=X + Conv{1×1}(V{a t t})$生成FSAS的输出特征,其中$Conv{1×1}(\cdot)$是1×1像素的卷积。

在这里插入图片描述

2.4 优势

  • 复杂度降低
    • 空间复杂度FSAS的空间复杂度降低到$O(N)$,相比原始缩放点积注意力的$O(N^{2})$显著降低。
    • 时间复杂度:时间复杂度降低到$O(N log N)$,对于每个特征通道,大大减少了计算量。
  • 性能提升
    • 与空间域方法比较:在GoPro数据集上的实验表明,与在空间域计算缩放点积注意力的方法(如Swin Transformer)相比,FSAS能生成更好的去模糊结果。例如,空间域方法的PSNR值比FSAS + DFFN低0.27dB。
    • 与仅使用FFN的方法比较:与仅使用FFN的基线方法相比,使用FSAS的PSNR值提高了0.42dB,能更好地去除模糊,边界恢复得更好。

论文:https://arxiv.org/pdf/2211.12250
源码:https://github.com/kkkls/FFTformer

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143433489

目录
相关文章
|
9月前
EI级 | Matlab实现VMD-TCN-GRU变分模态分解结合时间卷积门控循环单元多变量光伏功率时间序列预测
EI级 | Matlab实现VMD-TCN-GRU变分模态分解结合时间卷积门控循环单元多变量光伏功率时间序列预测
EI级 | Matlab实现VMD-TCN-GRU变分模态分解结合时间卷积门控循环单元多变量光伏功率时间序列预测
|
机器学习/深度学习 PyTorch 算法框架/工具
神经网络加上注意力机制,精度不升反降?
神经网络加上注意力机制,精度不升反降?
神经网络加上注意力机制,精度不升反降?
|
3天前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
21 7
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
|
3天前
|
机器学习/深度学习 编解码 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
26 11
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
|
12小时前
|
机器学习/深度学习 编解码 测试技术
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
4 0
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
|
11小时前
|
计算机视觉
YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
16 9
YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
|
11小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
YOLOv11改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
19 9
YOLOv11改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
|
3天前
|
机器学习/深度学习 编解码 知识图谱
YOLOv11改进策略【卷积层】| HWD,引入`Haar小波变换`到下采样模块中,减少信息丢失
YOLOv11改进策略【卷积层】| HWD,引入`Haar小波变换`到下采样模块中,减少信息丢失
7 0
YOLOv11改进策略【卷积层】| HWD,引入`Haar小波变换`到下采样模块中,减少信息丢失
|
3天前
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对C3k2进行二次创新
YOLOv11改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对C3k2进行二次创新
10 0
YOLOv11改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对C3k2进行二次创新
|
3天前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
YOLOv11改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
4 0
YOLOv11改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习