YOLOv11改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新C3k2)

简介: YOLOv11改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新C3k2)

一、本文介绍

本文记录的是利用Contextual Transformer (CoT)模块优化YOLOv11的目标检测网络模型CoT将静态上下文和自注意力学习动态上下文统一在一个架构中,有效地提升了在 2D 特征图上进行视觉表示学习时自注意力学习的能力,本文将深入研究CoT的原理,并将其应用到YOLOv11中,==进而更有效的增强模型对视觉信息的学习和表示能力。==


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、ParNet 介绍

Contextual Transformer Networks for Visual Recognition

2.1 出发点

  • 现有的大多数Transformer设计在2D特征图上直接使用自注意力来获得注意力矩阵时,仅基于孤立的查询和键对,未充分利用相邻键之间的丰富上下文信息。因此,希望通过利用输入键之间的上下文信息来增强Transformer式架构,以提高视觉表示学习能力。

    2.2 原理

  • 挖掘静态上下文:首先通过一个$3×3$卷积对输入键进行上下文编码,得到输入的静态上下文表示。此操作考虑了每个$3×3$网格内相邻键之间的关系,反映了局部邻居之间的静态上下文。
  • 学习动态注意力矩阵:将编码后的键与输入查询连接起来,通过两个连续的$1×1$卷积来学习动态多头注意力矩阵。这个过程在静态上下文的指导下,自然地利用了每个查询和所有键之间的相互关系进行自注意力学习。
  • 获得动态上下文表示:将学习到的注意力矩阵与输入值相乘,得到输入的动态上下文表示,描绘了动态上下文。
  • 融合输出:最后将静态和动态上下文表示融合作为输出。

在这里插入图片描述

2.3 结构

  1. 如图所示,假设输入的2D特征图为$X$,键$K = X$,查询$Q = X$,值$V = XW_{v}$。首先使用$k×k$组卷积对$k×k$网格内的相邻键进行上下文编码得到$K^{1}$,作为静态上下文表示。

  2. 然后基于$[K^{1}, Q]$通过两个连续的$1×1$卷积($W{\theta}$带有ReLU激活函数,$W{\delta}$无激活函数)得到注意力矩阵$A$。

  3. 接着根据注意力矩阵$A$计算得到动态上下文表示$K^{2}=V \circledast A$。

  4. 最终输出$Y$是静态上下文$K^{1}$和动态上下文$K^{2}$通过注意力机制融合的结果。
    在这里插入图片描述

  1. 优势
    • 统一架构:将键之间的上下文挖掘和2D特征图上的自注意力学习统一在一个架构中,避免了为上下文挖掘引入额外的分支,同时具有良好的参数预算。
    • 有效利用上下文:充分利用了邻居键之间的上下文信息,增强了自注意力学习,提高了输出聚合特征图的表示能力。
    • 可替代卷积:可以作为现有ResNet架构中标准卷积的替代,直接替换ResNet结构中的$3×3$卷积,得到名为Contextual Transformer Networks (CoTNet)的新架构,且在不增加参数和FLOP预算的情况下提升性能。例如,在ImageNet图像识别任务中,CoTNet相对于ResNeSt (101层),top - 1错误率绝对降低了$0.9\%$;在COCO的目标检测和实例分割任务中,分别绝对提高了ResNeSt的$1.5\%$和$0.7\%$的mAP。

论文:https://arxiv.org/pdf/2107.12292
源码:https://github.com/JDAI-CV/CoTNet

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143027317

目录
相关文章
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
6 1
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
|
15小时前
|
机器学习/深度学习 资源调度 Java
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
8 1
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
7 2
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
|
15小时前
|
机器学习/深度学习 资源调度 数据可视化
YOLOv11改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
YOLOv11改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
11 1
YOLOv11改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
8 1
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
6 1
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
|
14小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
19 10
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
|
3天前
|
计算机视觉
YOLOv11改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
YOLOv11改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
7 0
YOLOv11改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
|
7月前
|
机器学习/深度学习 移动开发 自然语言处理
【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块,捕捉局部和全局上下文,增强特征表示
【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块,捕捉局部和全局上下文,增强特征表示
|
3月前
|
机器学习/深度学习 自然语言处理 计算机视觉
【YOLOv11改进 - 注意力机制】CoTAttention:上下文转换器注意力
【YOLOv11改进 - 注意力机制】CoTAttention:上下文转换器注意力Contextual Transformer (CoT) 是一种新型的Transformer风格模块,通过3×3卷积对输入键进行上下文编码,生成静态上下文表示,并通过两个1×1卷积学习动态多头注意力矩阵,增强视觉表示能力。CoTNet将CoT块应用于ResNet架构中,替代3×3卷积,提升图像识别、目标检测和实例分割等任务的性能。源码可在GitHub获取。
【YOLOv11改进 - 注意力机制】CoTAttention:上下文转换器注意力