一、本文介绍
本文记录的是利用显式视觉中心EVC
优化YOLOv11的目标检测网络模型。利用EVC
改进颈部网络,通过轻量级MLP
和可学习视觉中心机制LVC
能够同时捕获全局长程依赖和保留局部角落区域信息,==在结构简单、体积轻便的同时,提高密集预测任务检测性能。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、EVC介绍
Centralized Feature Pyramid for Object Detection
2.1 出发点
- 现有的方法大多集中在层间特征交互,忽略了层内特征规则,且一些利用注意力机制或视觉变换器学习层内特征表示的方法忽略了对密集预测任务重要的角落区域。为了解决这些问题,设计了ECV模块。
2.2 原理
- 一方面通过轻量级MLP架构捕获顶层特征$x_{4}$的全局长程依赖(全局信息),另一方面通过可学习的视觉中心机制聚合输入图像的局部关键区域(局部信息),然后将这两部分结果沿通道维度拼接作为ECV的输出用于下游识别。
2.3 结构
2.3.1 轻量级MLP部分
- 主要由两个残差模块组成,一个是基于深度可分离卷积的模块,另一个是基于通道MLP的模块。输入的特征先经过一个$7×7$卷积(输出通道大小为256)、批量归一化层和激活函数层组成的Stem块处理得到$X{in}$。对于基于深度可分离卷积的模块,$X{in}$先进入深度可分离卷积层,经过组归一化处理,然后进行通道缩放和DropPath操作,再加上$X{in}$的残差连接得到$\tilde{X}{in}$。对于基于通道MLP的模块,$\tilde{X}{in}$先进行组归一化,然后实施通道MLP,接着进行通道缩放、DropPath操作以及$\tilde{X}{in}$的残差连接得到$MLP(X_{in})$。
2.3.2 可学习视觉中心机制部分(LVC)
- 具有一个固有字典,包括固有码本$B = {b{1},b{2},\cdots,b{K}}$和一组缩放因子$S={s{1},s{2},\cdots,s{K}}$。特征从Stem块$x{in}$先经过一组卷积层($1×1$卷积、$3×3$卷积和$1×1$卷积)编码,然后经过一个由$3×3$卷积、BN层和ReLU激活函数组成的CBR块处理,进入码本。通过缩放因子$s$计算得到关于第$k$个码字的信息$e{k}$,然后用$\phi$融合所有$e{k}$得到关于$K$个码字的全信息(e)。$e$经过一个全连接层和$1×1$卷积层预测突出关键类的特征,再与输入特征$X{in}$进行通道乘法和通道加法操作得到$LVC(X_{in})$。
2.4 优势
- 信息全面:能够同时捕获全局长程依赖和保留局部角落区域信息,这对于密集预测任务非常重要。
- 结构优势:轻量级MLP结构简单、体积更轻且计算效率更高,相比基于多头注意力机制的变换器编码器有优势。
论文:https://arxiv.org/pdf/2210.02093
源码:https://github.com/QY1994-0919/CFPNet
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: