一、本文介绍
本文记录的是利用PKI Module
优化YOLOv11
的目标检测方法研究。在遥感图像目标检测中,与一般目标检测不同,需要在单张图像中定位和识别不同大小的目标。为了解决目标尺度变化大的挑战,本文引入PKI Module
来捕获多尺度纹理特征,实验验证,有效涨点。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、PKI Module原理介绍
Poly Kernel Inception Network for Remote Sensing Detection
PKI Module
是Poly Kernel Inception Network (PKINet)
中的一个重要模块,其设计原理、结构和优势如下:
2.1 原理
PKI Module
是一个Inception-Style
模块,通过不同尺寸的卷积核组合来提取不同尺度的特征。它先使用小卷积核卷积抓取局部信息,然后使用一组并行的深度可分离卷积来捕获多尺度的上下文信息。通过这种方式,==可以在不同感受野上提取特征,并将局部和上下文特征进行融合,以获取更丰富的特征表示,同时避免因单一尺度卷积核或扩张卷积带来的问题==,如小卷积核可能丢失长距离上下文信息,大卷积核可能引入背景噪声或生成过于稀疏的特征表示。
2.2 结构
2.2.1 局部特征提取
- 对于第$l$阶段第$n$个PKI Block中的PKI Module,首先通过$k{s}×k{s}$卷积(在实验中$k{s}=3$)对输入$X{l - 1,n}^{(2)}$进行局部特征提取,得到$L{l - 1,n}\in\mathbb{R}^{\frac{1}{2}C{l}×H{l}×W{l}}$。
2.2.2 多尺度上下文特征提取
- 接着使用一组并行的深度可分离卷积$DWConv{k^{(m)}×k^{(m)}}$($m = 1,\cdots,4$,其中$k^{(m)}=(m + 1)×2+1$)对$L{l - 1,n}$进行卷积,得到不同尺度的上下文特征$Z{l - 1,n}^{(m)}\in\mathbb{R}^{\frac{1}{2}C{l}×H{l}×W{l}}$。
2.2.3 特征融合
- 将局部特征$L{l - 1,n}$和多尺度上下文特征$\sum{m = 1}^{4}Z{l - 1,n}^{(m)}$相加后,通过一个$1×1$卷积进行融合,得到输出特征$P{l - 1,n}\in\mathbb{R}^{\frac{1}{2}C{i}×H{i}×W_{i}}$。这个$1×1$卷积起到了通道融合的作用,能够整合不同感受野大小的特征。
2.3 优势
- 多尺度特征提取
- 能够有效捕获多尺度纹理特征,适应遥感图像中目标尺度变化大的特点,通过不同大小的卷积核组合,可以获取不同尺度的局部和上下文信息,提高对不同大小目标的检测能力。
- 避免特征稀疏和噪声问题
- 不使用扩张卷积,防止了提取过于稀疏的特征表示,同时相比于单纯使用大卷积核,避免了引入过多背景噪声,从而提高了特征的质量和检测的准确性。
- 特征融合优势
- 通过$1×1$卷积进行特征融合,能够合理地整合不同尺度的特征,在保留局部纹理特征完整性的同时,捕获到更广泛的上下文信息,使得提取的特征更具代表性和判别力。
论文:https://arxiv.org/pdf/2403.06258
源码:https://github.com/NUST-Machine-Intelligence-Laboratory/PKINet
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: