YOLOv11改进策略【注意力机制篇】| Mixed Local Channel Attention (MLCA) 同时融合通道、空间、局部信息和全局信息的新型注意力

2025-02-07 8

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【注意力机制篇】| Mixed Local Channel Attention (MLCA) 同时融合通道、空间、局部信息和全局信息的新型注意力

一、本文介绍

本文记录的是利用MLCA模块优化YOLOv11的目标检测网络模型。MLCA (Mixed Local Channel Attention)的作用在于同时包含了通道信息和空间信息，克服了常见通道注意力方法只考虑通道关系而忽略空间信息的问题。相比一些只提供全局长程信息的方法，能更好地表达网络特征。本文将其加入到YOLOv11的不同位置中，综合多种信息，更好地突出重要特征，从而提升模型对物体检测的表达能力。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、混合局部通道注意力介绍

Mixed local channel attention for object detection

2.1 出发点

多数通道注意力方法忽略空间特征信息，而包含空间信息的注意力方法计算和参数要求过高，不适合轻量级网络，且一些简单方法虽能减少参数并包含空间和通道信息，但排除了局部信息。为实现检测效果、速度和模型参数数量之间的平衡，并使注意力机制同时包含通道、空间、局部通道和全局通道信息，提出了MLCA模块。

2.2 原理

2.2.1 输入特征向量处理

MLCA的输入特征向量会进行两步池化。首先通过局部池化将输入转化为$1Cks*ks$的向量以提取局部空间信息。这里$ks$是W或H维度上的块数，在研究中为了简化与SE的比较并设置统一计算量，将$ks$设为5。

2.2.2 分支转换与信息融合

基于第一步，利用两个分支将输入转化为一维向量，第一个分支包含全局信息，第二个分支包含局部空间信息。经过一维卷积后，通过反池化恢复两个向量的原始分辨率，然后融合信息以实现混合注意力。

在这里插入图片描述

2.3 结构

整体结构：从整体上看，MLCA模块包含了上述的池化、分支、卷积和融合等操作步骤。
卷积核相关：在模块中，一维卷积（Conv1d）的卷积核大小$k$与通道维度$C$相关，其选择由公式$k = \Phi(C)=\left|\frac{log {2}(C)}{\gamma}+\frac{b}{\gamma}\right|{odd }$确定，其中$\gamma$和$b$是超参数，默认值为2，且$k$只取奇数，若计算结果为偶数则加1。

2.4优势

参数和计算量方面
- 与SE、LSE等相比，在保持较好性能的同时，能有效控制参数数量和计算量。例如在与LSE对比中，LSE参数数量和计算量一般与SE注意力机制乘以$ks * ks$相当，而MLCA通过特定设计避免了过多的参数和计算量增加。
- 避免了通道维度降低带来的精度损失问题，因为通道维度降低虽能在一定程度上减少LSE模块的参数和计算量，但会牺牲精度。
  - 信息包含方面
- 同时包含了通道信息和空间信息，克服了常见通道注意力方法只考虑通道关系而忽略空间信息的问题。
- 融合了局部信息和全局信息，相比一些只提供全局长程信息的方法，能更好地表达网络特征。