一、本文介绍
本文记录的是利用SeaFormer++
模型中提出的Sea_Attention
模块优化YOLOv11
的目标检测网络模型。Sea_Attention
利用挤压轴向注意力有效地提取全局语义信息,并通过细节增强核补充局部细节,优化了Transformer块
的特征提取能力。本文将其加入到YOLOv11
的不同位置中,使模型能够在不引入过多计算开销的情况下聚合空间信息。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、混合局部通道注意力介绍
SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition
2.1 出发点
传统的全局自注意力机制在处理高分辨率图像时计算成本和内存需求高,不适合移动设备。为了解决这个问题,需要设计一种高效的注意力模块,既能提取全局语义信息,又能保持较低的计算复杂度和内存占用,同时还要能补充局部细节信息,以满足移动设备上的语义分割任务需求。
2.2 原理
2.2.1 Squeeze Axial attention(挤压轴向注意力)
- 通过自适应地将输入特征图在水平和垂直方向上进行挤压操作,将每个轴上的所有标记映射到一个单一的标记,从而以一种自适应的方式将全局信息保留在单个轴上。
- 在水平方向上,使用可学习的掩码将查询的所有标记映射到每行的一个单一标记;在垂直方向上同理。这样可以大大降低计算复杂度。
- 同时,为了使挤压后的轴向注意力具有位置感知能力,引入位置嵌入,使得挤压后的查询和键能够感知到它们在挤压后的轴向特征中的位置。
2.2.2 Detail enhancement kernel(细节增强核)
- 由于挤压操作会牺牲局部细节,因此使用一个基于卷积的辅助核来增强空间细节。
- 首先从输入特征图中获取查询、键和值,并在通道维度上进行拼接,然后通过一个由3×3深度可分离卷积和批量归一化组成的块来聚合辅助局部细节。
- 最后通过一个线性投影和激活函数以及批量归一化将维度压缩到指定维度,并生成细节增强权重,与挤压轴向注意力得到的特征进行融合。
2.3 结构
2.3.1 Squeeze Axial attention部分
- 包括水平和垂直方向的挤压操作,以及相应的位置嵌入。
- 对于水平方向,计算$q{(h)}=\frac{1}{W}\left(q^{\to\left(H, C{qk}, W\right)} A{W}^{\to(H, W, 1)}\right)^{\to\left(H, C{qk}\right)}$,其中$q$是从输入特征图$x$通过线性投影得到的查询,$A{W}$是可学习的掩码,通过在输入特征图上应用1×1卷积和批量归一化层得到。垂直方向同理计算$q{(v)}$。
- 位置嵌入通过从可学习参数线性插值得到,分别为$r{(h)}^{q}, r{(h)}^{k} \in \mathbb{R}^{H ×C{qk}}$和$r{(v)}^{q}, r{(v)}^{k} \in \mathbb{R}^{W ×C{qk}}$,并应用到相应的挤压后的查询和键上。
2.3.2 Detail enhancement kernel部分
- 从输入特征图(x)通过另一组线性投影获取查询、键和值$W{q}^{(e)}, W{k}^{(e)} \in \mathbb{R}^{C{qk} ×C}, W{v}^{(e)} \in \mathbb{R}^{C_{v} ×C}$,然后在通道维度上拼接并通过3×3深度可分离卷积和批量归一化块,再经过线性投影、激活函数和批量归一化得到细节增强权重,与挤压轴向注意力的结果融合。
2.4 优势
- 计算高效:通过挤压轴向注意力将计算复杂度从$O((H + W)HW)$降低到$O(HW)$,同时通过自适应的挤压和扩展操作,在不引入过多计算开销的情况下聚合空间信息。
- 有效提取全局和局部信息:既能通过挤压轴向注意力有效地提取全局语义信息,又能通过细节增强核补充局部细节,优化了Transformer块的特征提取能力。
- 适合移动设备:只包含卷积、池化、矩阵乘法等移动设备友好的操作,在移动设备上能够实现高效的语义分割。
论文:https://arxiv.org/pdf/2301.13156
源码: https://github.com/fudan-zvg/SeaFormer
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: