一、本文介绍
本文记录的是利用自校准模块RCM
优化YOLOv11的目标检测方法研究。RCM
通过矩形自校准函数可以将注意力区域校准得更接近前景对象,有效提高对前景对象的定位能力。==本文对C3k2模块
进行二次创新,并应用在颈部网络上,使模型能够捕获轴向全局上下文信息,并应用于金字塔上下文提取,使模型表现出更高的精度。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、RCM 原理介绍
2.1 出发点
- 现有轻量级模型在特征表示能力上受限,难以对前景对象的边界进行建模和区分类别,导致边界分割不准确和分类错误。为了解决这些问题,设计了矩形
自校准模块(RCM)
来提高前景对象的位置建模能力,并引入金字塔上下文来改善特征表示。2.2 原理
2.2.1 矩形自校准注意力(RCA)
- 采用水平池化和垂直池化来捕获轴向全局上下文,生成两个轴向量。将这两个轴向量相加来建模一个矩形注意力区域。
- 设计形状自校准函数,通过大核条状卷积调整矩形注意力的形状,使其更接近前景特征。
2.2.2 特征融合
- 设计融合函数,将注意力特征与输入特征融合,使用$3×3$深度卷积进一步提取输入特征的局部细节,通过哈达玛积将校准后的注意力特征加权到细化后的输入特征上。
2.3 结构
- 由
矩形自校准注意力
、批量归一化(BN)
和多层感知机(MLP)
组成。 - 矩形自校准注意力通过水平和垂直池化操作后,经过形状自校准函数校准,再进行特征融合。之后添加BN和MLP来细化特征,最后采用残差连接增强特征重用。
2.4 优势
- 位置建模和前景聚焦
- 能够使模型更专注于前景进行空间特征重建,通过形状自校准函数可以将注意力区域校准得更接近前景对象,有效提高对前景对象的定位能力。
- 上下文提取
- 在捕获轴向全局上下文用于金字塔上下文提取方面表现出色。通过水平和垂直池化以及后续的操作,可以更好地捕捉图像中的上下文信息。
- 性能优势
- 与现有的注意力机制相比,RCM通过其独特的设计,如形状自校准和特征融合等操作,可以取得更好的性能。例如在ADE20K数据集上的实验结果显示,使用RCM的模型在mIoU等指标上表现优异。
论文:https://arxiv.org/pdf/2405.06228
源码:https://github.com/nizhenliang/CGRSeg
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: