YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔，增加针对小目标的检测头（附模块详解和完整配置步骤）

2025-02-07 17

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔，增加针对小目标的检测头（附模块详解和完整配置步骤）

一、本文介绍

本文利用AFPN对YOLOv11的网络模型进行优化提升。AFPN采用渐近式融合及自适应空间融合操作。通过渐近式架构，逐步整合不同层级特征，有效避免非相邻层级间因语义差距过大导致的信息丢失或降级问题，确保在多尺度特征融合过程中既能保留高层语义信息，又能融入低层细节特征。本文将AFPN应用于YOLOv11中，并配置了针对小目标的检测头，能显著增强模型对不同尺度目标的检测能力，使其在复杂场景下更聚焦于目标物体特征，减少背景等无关信息的影响。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、AFPN介绍

AFPN: Asymptotic Feature Pyramid Network for Object Detection

2.1 设计出发点

在目标检测中，物体尺寸不确定，单尺度特征提取会丢失信息，因此常用特征金字塔架构。但传统如FPN等方法在融合非相邻层特征时，高层特征语义信息或低层特征细节信息会在传播和交互中丢失或降级。

例如，高层特征需经多层中间尺度传播和交互后与底层低层级特征融合，过程中语义信息易受损，PAFPN的自底向上路径也会使低层级特征细节丢失。此外，像GraphFPN虽解决非相邻层直接交互问题，但引入的图神经网络增加大量参数和计算量。

为克服这些局限，AFPN应运而生。

2.2 结构原理

多层特征提取
- 遵循Faster R - CNN框架，从骨干网络各特征层提取最后一层特征，得到不同尺度的特征集${C{2}, C{3}, C{4}, C{5}}$。先输入$C{2}$和$C{3}$到特征金字塔网络，接着加入$C{4}$，最后加入$C{5}$进行融合，产生多尺度特征集${P{2}, P{3}, P{4}, P{5}}$。
- 在Faster R - CNN框架实验中，对$P{5}$进行特定卷积操作生成$P{6}$，最终得到特征集$P{2}$，$P{3}$，$(P{4}$，$P{5}$，$P_{6}$，其特征步长分别为 4、8、16、32、64 像素。
- YOLO则仅输入$C{3}$，$C{4}$，$C{5}$到特征金字塔网络，生成${P{3}, P{4}, P{5}}$。
渐近式架构：在骨干网络自底向上提取特征过程中，AFPN渐近地整合低、高和顶层特征。先融合低层级特征，再融合深层特征，最后整合最顶层特征。因为非相邻层级特征语义差距大，直接融合效果差，AFPN的渐近融合方式可缩小不同层级特征语义差距。

例如$C{2}$和$C{3}$融合减少语义差距后，由于$C{3}$和$C{4}$相邻，$C{2}$和$C{4}$语义差距也随之减小。在融合前，利用 1×1 卷积和双线性插值进行上采样，根据下采样率用不同卷积核和步长下采样。融合后用四个类似 ResNet 的残差单元继续学习特征，每个残差单元含两个 3×3 卷积。

在这里插入图片描述

自适应空间融合：利用ASFF在多层特征融合时为不同层级特征分配不同空间权重，增强关键层级重要性并缓解不同对象矛盾信息影响。

以融合三个层级特征为例，设$x{ij}^{n→l}$表示从层级$n$到层级$l$位置$(i, j)$的特征向量，融合后的特征向量$y{ij}^{l}$由$x{ij}^{1→l}$，$x{ij}^{2→l}$和$x{ij}^{3→l}$线性组合得到，且对应权重$\alpha{ij}^{l}$，$\beta{ij}^{l}$和$\gamma{ij}^{l}$满足$\alpha{ij}^{l}+\beta{ij}^{l}+\gamma_{ij}^{l}=1$。因 AFPN 各阶段融合特征数量不同，会设置特定数量自适应空间融合模块。