一、本文介绍
本文记录的是利用ACmix
改进YOLOv11
检测模型,==卷积和自注意力是两种强大的表示学习技术,本文利用两者之间潜在的紧密关系,进行二次创新,实现优势互补,减少冗余,通过实验证明,实现模型有效涨点。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、ACmix介绍
On the Integration of Self-Attention and Convolution
2.1 原理
2.1.1 卷积分解
传统的卷积可以分解为多个$1×1$卷积,然后是位移和求和操作。例如对于一个$k×k$的卷积核,可分解为$k^{2}$个$1×$卷积。
2.1.2 自注意力解释
自注意力模块中查询、键和值的投影可以看作是多个$1×1$卷积,然后计算注意力权重并聚合值。
2.1.3 相似性及主导计算复杂度
两个模块的第一阶段都包含类似的$1×1$卷积操作,并且这个第一阶段相比第二阶段在计算复杂度上占主导地位(与通道大小的平方相关),这为整合提供了理论基础。
2.2 结构
- 第一阶段:输入特征图通过三个$1×1$卷积进行投影并重塑为$N$块,得到一组丰富的中间特征,包含$3×N$个特征图。
- 第二阶段:
- 自注意力路径:将中间特征收集为$N$组,每组包含三个特征(来自每个$1×1$卷积),作为查询、键和值,按照传统的多头自注意力模块进行处理。
- 卷积路径:对于卷积核大小为$k$的情况,采用一个轻量级全连接层并生成$k^{2}$个特征图,然后通过位移和聚合这些特征来处理输入特征,从局部感受野收集信息。
- 最终输出:两条路径的输出相加,其强度由两个可学习的标量$\alpha$和$\beta$控制,即$F{out}=\alpha F{att}+\beta F_{conv}$。
2.3 优势
- 计算效率:
- 理论上,在第一阶段的计算复杂度与通道大小相关,相比传统卷积(如$3×3$卷积),在第一阶段的计算成本与自注意力相似且更轻。在第二阶段虽然有额外计算开销,但复杂度与通道大小呈线性关系且相对第一阶段较小。
- 通过改进位移和求和操作,如采用深度可分离卷积替代低效的张量位移,提高了模块的实际计算效率。
- 性能优势:在图像识别和下游任务(如图像分类、语义分割和目标检测)上,与竞争基准相比,模型取得了持续改进的结果。
- 灵活性和通用性:
- 模型可以自适应地调整卷积和自注意力路径的强度,根据网络中滤波器的位置灵活组合两个模块。
- 可以应用于多种自注意力模式,如Patchwise attention、Window attention和Global attention等变体。
论文:https://arxiv.org/pdf/2111.14556
源码:https://github.com/LeapLabTHU/ACmix
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: