一、本文介绍
本文记录的是利用空间自适应特征调制模块SAFM优化YOLOv11的目标检测方法研究。SAFM
通过更好地利用特征信息来实现模型性能和效率的平衡。本文通过二次创新C3k2,==能够动态选择代表性特征,并结合局部上下文信息,提升模型的检测精度。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、SAFM 原理介绍
高效图像超分辨率的空间自适应特征调制
2.1 设计出发点
- 融合卷积与自注意力机制优势:现有的基于深度学习的图像超分辨率(SR)模型存在一些问题。一方面,大型的基于卷积神经网络(CNN)的模型如RCAN虽取得良好性能,但计算成本高,难以部署;另一方面,视觉Transformer(ViT)虽在某些任务中表现出探索非局部特征交互的优势,但自注意力机制计算昂贵,不利于高效SR设计。因此,需要一种既能吸收CNN的高效性又能具备类似Transformer适应性的机制,这促使了SAFM模块的设计,旨在通过融合两者的优点来实现高效的SR。
- 提升模型对特征的利用能力:在高效SR的研究方向中,现有的方法在提升模型效率时往往难以兼顾性能,而SAFM模块希望通过更好地利用特征信息来实现模型性能和效率的平衡。通过动态选择代表性特征,并结合局部上下文信息,提升模型在超分辨率任务中的表现。
2.2 原理
- 引入长距离交互和动态建模能力:借鉴ViT中多头自注意力(MHSA)机制实现长距离特征交互和动态空间加权的能力,将其引入到卷积操作中。通过并行和独立的计算,让每个头处理输入的不同尺度信息,然后聚合这些特征生成注意力图,用于对输入特征进行空间自适应调制。
- 多尺度特征生成与选择:为了学习非局部特征交互,首先对归一化后的输入特征进行通道分割,分为四组组件。其中第一组通过$3×3$深度卷积处理,其余部分通过池化操作进行单独采样。并且在输入特征上应用自适应最大池化操作来收集信息,以选择具有判别性的特征。之后将这些不同尺度的特征在通道维度上进行拼接,并通过$1×1$卷积进行聚合,得到一个综合的特征表示。最后通过GELU非线性函数对其进行归一化,得到注意力图,用于自适应地调制输入特征。
2.3 结构
2.3.1 多尺度特征生成单元(MFGU)
- 包含多个分支,其中一个分支是$3×3$深度卷积对第一组特征进行处理。
其他分支通过池化操作对特征进行不同程度的下采样,然后再通过上采样操作恢复到原始分辨率,以获取不同尺度的特征信息。
2.3.2 特征聚合与调制
将
MFGU
输出的不同尺度特征在通道维度上进行拼接,然后通过$1×1$卷积进行聚合。- 对聚合后的特征通过
GELU函数
进行归一化,得到注意力图,再通过逐元素相乘的方式自适应地调制输入特征。
2.4 优势
- 更好的性能与效率平衡:与其他轻量级SR方法相比,如在Set5数据集上进行$×2SR$时,所提方法在模型复杂度和重建性能之间取得了更好的平衡,在减少模型参数和计算量(FLOPs)的同时,能够获得与其他先进方法相当的性能。
- 有效利用特征信息:通过局部归因图(LAM)和扩散指数(DI)的比较可知,该模块能够比其他基于CNN的高效SR模型利用更多的特征信息,从而有助于提升重建性能。
- 降低计算成本:在卷积操作中引入类似自注意力机制的能力时,通过多尺度特征表示和并行独立计算,在保持对特征有效利用的同时,维持了较低的计算成本。
论文:https://openaccess.thecvf.com/content/ICCV2023/papers/Sun_Spatially-Adaptive_Feature_Modulation_for_Efficient_Image_Super-Resolution_ICCV_2023_paper.pdf
源码:https://github.com/sunny2109/SAFMN
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: