YOLOv11改进策略【Conv和Transformer】| ACmix 卷积和自注意力的结合，充分发挥两者优势

2025-02-04 17

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Conv和Transformer】| ACmix 卷积和自注意力的结合，充分发挥两者优势

一、本文介绍

本文记录的是利用ACmix改进YOLOv11检测模型，==卷积和自注意力是两种强大的表示学习技术，本文利用两者之间潜在的紧密关系，进行二次创新，实现优势互补，减少冗余，通过实验证明，实现模型有效涨点。==

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、ACmix介绍

On the Integration of Self-Attention and Convolution

传统的卷积可以分解为多个$1×1$卷积，然后是位移和求和操作。例如对于一个$k×k$的卷积核，可分解为$k^{2}$个$1×$卷积。

自注意力模块中查询、键和值的投影可以看作是多个$1×1$卷积，然后计算注意力权重并聚合值。

两个模块的第一阶段都包含类似的$1×1$卷积操作，并且这个第一阶段相比第二阶段在计算复杂度上占主导地位（与通道大小的平方相关），这为整合提供了理论基础。

第一阶段：输入特征图通过三个$1×1$卷积进行投影并重塑为$N$块，得到一组丰富的中间特征，包含$3×N$个特征图。
第二阶段：
- 自注意力路径：将中间特征收集为$N$组，每组包含三个特征（来自每个$1×1$卷积），作为查询、键和值，按照传统的多头自注意力模块进行处理。
- 卷积路径：对于卷积核大小为$k$的情况，采用一个轻量级全连接层并生成$k^{2}$个特征图，然后通过位移和聚合这些特征来处理输入特征，从局部感受野收集信息。
- 最终输出：两条路径的输出相加，其强度由两个可学习的标量$\alpha$和$\beta$控制，即$F{out}=\alpha F{att}+\beta F_{conv}$。

计算效率：
- 理论上，在第一阶段的计算复杂度与通道大小相关，相比传统卷积（如$3×3$卷积），在第一阶段的计算成本与自注意力相似且更轻。在第二阶段虽然有额外计算开销，但复杂度与通道大小呈线性关系且相对第一阶段较小。
- 通过改进位移和求和操作，如采用深度可分离卷积替代低效的张量位移，提高了模块的实际计算效率。
性能优势：在图像识别和下游任务（如图像分类、语义分割和目标检测）上，与竞争基准相比，模型取得了持续改进的结果。
灵活性和通用性：
- 模型可以自适应地调整卷积和自注意力路径的强度，根据网络中滤波器的位置灵活组合两个模块。
- 可以应用于多种自注意力模式，如Patchwise attention、Window attention和Global attention等变体。

论文：https://arxiv.org/pdf/2111.14556
源码：https://github.com/LeapLabTHU/ACmix

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：