YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)

简介: YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)

一、本文介绍

本文记录的是利用SeaFormer++模型中提出的Sea_Attention模块优化YOLOv11的目标检测网络模型Sea_Attention利用挤压轴向注意力有效地提取全局语义信息,并通过细节增强核补充局部细节,优化了Transformer块的特征提取能力。本文将其加入到YOLOv11的不同位置中,使模型能够在不引入过多计算开销的情况下聚合空间信息。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、混合局部通道注意力介绍

SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition

2.1 出发点

传统的全局自注意力机制在处理高分辨率图像时计算成本和内存需求高,不适合移动设备。为了解决这个问题,需要设计一种高效的注意力模块,既能提取全局语义信息,又能保持较低的计算复杂度和内存占用,同时还要能补充局部细节信息,以满足移动设备上的语义分割任务需求。

2.2 原理

2.2.1 Squeeze Axial attention(挤压轴向注意力)

  • 通过自适应地将输入特征图在水平和垂直方向上进行挤压操作,将每个轴上的所有标记映射到一个单一的标记,从而以一种自适应的方式将全局信息保留在单个轴上。
    • 在水平方向上,使用可学习的掩码将查询的所有标记映射到每行的一个单一标记;在垂直方向上同理。这样可以大大降低计算复杂度。
    • 同时,为了使挤压后的轴向注意力具有位置感知能力,引入位置嵌入,使得挤压后的查询和键能够感知到它们在挤压后的轴向特征中的位置。

在这里插入图片描述

2.2.2 Detail enhancement kernel(细节增强核)

  • 由于挤压操作会牺牲局部细节,因此使用一个基于卷积的辅助核来增强空间细节。
  • 首先从输入特征图中获取查询、键和值,并在通道维度上进行拼接,然后通过一个由3×3深度可分离卷积和批量归一化组成的块来聚合辅助局部细节。
  • 最后通过一个线性投影和激活函数以及批量归一化将维度压缩到指定维度,并生成细节增强权重,与挤压轴向注意力得到的特征进行融合。

在这里插入图片描述

2.3 结构

2.3.1 Squeeze Axial attention部分

  • 包括水平和垂直方向的挤压操作,以及相应的位置嵌入
  • 对于水平方向,计算$q{(h)}=\frac{1}{W}\left(q^{\to\left(H, C{qk}, W\right)} A{W}^{\to(H, W, 1)}\right)^{\to\left(H, C{qk}\right)}$,其中$q$是从输入特征图$x$通过线性投影得到的查询,$A{W}$是可学习的掩码,通过在输入特征图上应用1×1卷积和批量归一化层得到。垂直方向同理计算$q{(v)}$。
  • 位置嵌入通过从可学习参数线性插值得到,分别为$r{(h)}^{q}, r{(h)}^{k} \in \mathbb{R}^{H ×C{qk}}$和$r{(v)}^{q}, r{(v)}^{k} \in \mathbb{R}^{W ×C{qk}}$,并应用到相应的挤压后的查询和键上。

    2.3.2 Detail enhancement kernel部分

  • 从输入特征图(x)通过另一组线性投影获取查询、键和值$W{q}^{(e)}, W{k}^{(e)} \in \mathbb{R}^{C{qk} ×C}, W{v}^{(e)} \in \mathbb{R}^{C_{v} ×C}$,然后在通道维度上拼接并通过3×3深度可分离卷积和批量归一化块,再经过线性投影、激活函数和批量归一化得到细节增强权重,与挤压轴向注意力的结果融合。

在这里插入图片描述

2.4 优势

  • 计算高效:通过挤压轴向注意力将计算复杂度从$O((H + W)HW)$降低到$O(HW)$,同时通过自适应的挤压和扩展操作,在不引入过多计算开销的情况下聚合空间信息。
  • 有效提取全局和局部信息:既能通过挤压轴向注意力有效地提取全局语义信息,又能通过细节增强核补充局部细节,优化了Transformer块的特征提取能力。
  • 适合移动设备:只包含卷积、池化、矩阵乘法等移动设备友好的操作,在移动设备上能够实现高效的语义分割。

论文:https://arxiv.org/pdf/2301.13156
源码: https://github.com/fudan-zvg/SeaFormer

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143355789

目录
相关文章
|
3天前
|
知识图谱
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
16 8
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
|
15小时前
|
机器学习/深度学习 资源调度 Java
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
8 1
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
6 1
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
|
15小时前
|
机器学习/深度学习 资源调度 计算机视觉
YOLOv11改进策略【注意力机制篇】| NAM注意力 即插即用模块,重新优化通道和空间注意力
YOLOv11改进策略【注意力机制篇】| NAM注意力 即插即用模块,重新优化通道和空间注意力
9 2
YOLOv11改进策略【注意力机制篇】| NAM注意力 即插即用模块,重新优化通道和空间注意力
|
15小时前
|
机器学习/深度学习 资源调度 数据可视化
YOLOv11改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
YOLOv11改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
11 1
YOLOv11改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
|
15小时前
|
机器学习/深度学习 数据可视化 计算机视觉
YOLOv11改进策略【注意力机制篇】| 2024 SCSA-CBAM 空间和通道的协同注意模块
YOLOv11改进策略【注意力机制篇】| 2024 SCSA-CBAM 空间和通道的协同注意模块
9 2
YOLOv11改进策略【注意力机制篇】| 2024 SCSA-CBAM 空间和通道的协同注意模块
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
6 1
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| EMA注意力 即插即用模块,提高远距离建模依赖
YOLOv11改进策略【注意力机制篇】| EMA注意力 即插即用模块,提高远距离建模依赖
6 1
YOLOv11改进策略【注意力机制篇】| EMA注意力 即插即用模块,提高远距离建模依赖
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
8 1
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| ICCV2023 聚焦线性注意力模块 Focused Linear Attention 聚焦能力与特征多样性双重提升,含二次创新
YOLOv11改进策略【注意力机制篇】| ICCV2023 聚焦线性注意力模块 Focused Linear Attention 聚焦能力与特征多样性双重提升,含二次创新
8 1