一、本文介绍
本文利用AFPN对YOLOv11的网络模型进行优化提升。AFPN
采用渐近式融合及自适应空间融合操作。通过渐近式架构,逐步整合不同层级特征,有效避免非相邻层级间因语义差距过大导致的信息丢失或降级问题,确保在多尺度特征融合过程中既能保留高层语义信息,又能融入低层细节特征。本文将AFPN
应用于YOLOv11
中,并配置了针对小目标的检测头,能显著增强模型对不同尺度目标的检测能力,使其在复杂场景下更聚焦于目标物体特征,减少背景等无关信息的影响。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、AFPN介绍
AFPN: Asymptotic Feature Pyramid Network for Object Detection
2.1 设计出发点
在目标检测中,物体尺寸不确定,单尺度特征提取会丢失信息,因此常用特征金字塔架构。但传统如FPN
等方法在融合非相邻层特征时,高层特征语义信息或低层特征细节信息会在传播和交互中丢失或降级。
例如,高层特征需经多层中间尺度传播和交互后与底层低层级特征融合,过程中语义信息易受损,PAFPN的自底向上路径也会使低层级特征细节丢失。此外,像GraphFPN虽解决非相邻层直接交互问题,但引入的图神经网络增加大量参数和计算量。
为克服这些局限,AFPN
应运而生。
2.2 结构原理
- 多层特征提取
- 遵循
Faster R - CNN
框架,从骨干网络各特征层提取最后一层特征,得到不同尺度的特征集${C{2}, C{3}, C{4}, C{5}}$。先输入$C{2}$和$C{3}$到特征金字塔网络,接着加入$C{4}$,最后加入$C{5}$进行融合,产生多尺度特征集${P{2}, P{3}, P{4}, P{5}}$。 - 在
Faster R - CNN
框架实验中,对$P{5}$进行特定卷积操作生成$P{6}$,最终得到特征集$P{2}$,$P{3}$,$(P{4}$,$P{5}$,$P_{6}$,其特征步长分别为 4、8、16、32、64 像素。 YOLO
则仅输入$C{3}$,$C{4}$,$C{5}$到特征金字塔网络,生成${P{3}, P{4}, P{5}}$。
- 遵循
- 渐近式架构:在骨干网络自底向上提取特征过程中,
AFPN
渐近地整合低、高和顶层特征。先融合低层级特征,再融合深层特征,最后整合最顶层特征。因为非相邻层级特征语义差距大,直接融合效果差,AFPN
的渐近融合方式可缩小不同层级特征语义差距。
例如$C{2}$和$C{3}$融合减少语义差距后,由于$C{3}$和$C{4}$相邻,$C{2}$和$C{4}$语义差距也随之减小。在融合前,利用 1×1 卷积和双线性插值进行上采样,根据下采样率用不同卷积核和步长下采样。融合后用四个类似 ResNet 的残差单元继续学习特征,每个残差单元含两个 3×3 卷积。
- 自适应空间融合:利用
ASFF
在多层特征融合时为不同层级特征分配不同空间权重,增强关键层级重要性并缓解不同对象矛盾信息影响。
以融合三个层级特征为例,设$x{ij}^{n→l}$表示从层级$n$到层级$l$位置$(i, j)$的特征向量,融合后的特征向量$y{ij}^{l}$由$x{ij}^{1→l}$,$x{ij}^{2→l}$和$x{ij}^{3→l}$线性组合得到,且对应权重$\alpha{ij}^{l}$,$\beta{ij}^{l}$和$\gamma{ij}^{l}$满足$\alpha{ij}^{l}+\beta{ij}^{l}+\gamma_{ij}^{l}=1$。因 AFPN 各阶段融合特征数量不同,会设置特定数量自适应空间融合模块。
2.3 优势
- 解决特征信息丢失或降级问题
- 实现高效特征融合
- 提升检测性能
论文:https://arxiv.org/abs/2306.15988v2
源码:https://github.com/gyyang23/AFPN
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: