一、本文介绍
本文记录的是利用HCANet
模型中提出的CAFM
模块优化YOLOv11
的目标检测网络模型。CAFM
利用卷积操作的局部特征提取能力,并通过自注意力机制补充全局信息,优化了特征提取能力。本文将其加入到YOLOv11
中,使模型能够增强复杂图像的适应能力,并在不增加过多计算负担的情况下提高特征提取能力。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、卷积和注意力融合模块介绍
Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising
2.1 CAFM模块设计出发点
卷积操作受限于局部性和有限的感受野,在对全局特征建模时存在不足。而Transformer
借助注意力机制在提取全局特征和捕捉长程依赖方面表现出色。因此为了对全局和局部特征进行建模,设计了卷积和注意力融合模块(CAFM)
。
2.2 CAFM模块原理
2.2.1 局部分支
通过一系列操作增强跨通道交互和促进信息整合。
首先使用$1×1$卷积调整通道维度,接着进行通道混洗操作(将输入张量沿通道维度分组,在每组内采用深度可分离卷积进行通道混洗,然后将各组合并),最后再用$3×3×3$卷积提取特征。
2.2.2 全局分支
首先通过$1×1$卷积和$3×3$深度可分离卷积生成查询(Q
)、键(K)
和值(V)
,将Q
和K
重塑后计算注意力图,通过注意力机制计算输出,再加上原始输入得到全局分支的输出。
2.3 模块结构
由局部分支和全局分支组成。
- 局部分支:依次包括$1×1$卷积、通道混洗操作和$3×3×3$卷积。
- 全局分支:包含生成
Q
、K
、V
的卷积操作,以及对Q
、K
进行重塑和计算注意力图的过程,最后通过$1×1$卷积和注意力机制得到输出并加上原始输入。
2.4 优势
- 结合了卷积和注意力机制的优点,能够同时对全局和局部特征进行有效建模。
- 通过合理的结构设计,在不增加过多计算负担的情况下提高了特征提取能力。
论文:https://arxiv.org/pdf/2403.10067
源码:https://github.com/summitgao/HCANet/blob/main/HCANet.py
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: