YOLOv11改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征，适应尺度变化大的目标

2025-02-04 11

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征，适应尺度变化大的目标

一、本文介绍

本文记录的是利用PKI Module优化YOLOv11的目标检测方法研究。在遥感图像目标检测中，与一般目标检测不同，需要在单张图像中定位和识别不同大小的目标。为了解决目标尺度变化大的挑战，本文引入PKI Module来捕获多尺度纹理特征，实验验证，有效涨点。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、PKI Module原理介绍

Poly Kernel Inception Network for Remote Sensing Detection

PKI Module是Poly Kernel Inception Network (PKINet)中的一个重要模块，其设计原理、结构和优势如下：

2.1 原理

PKI Module是一个Inception-Style模块，通过不同尺寸的卷积核组合来提取不同尺度的特征。它先使用小卷积核卷积抓取局部信息，然后使用一组并行的深度可分离卷积来捕获多尺度的上下文信息。通过这种方式，==可以在不同感受野上提取特征，并将局部和上下文特征进行融合，以获取更丰富的特征表示，同时避免因单一尺度卷积核或扩张卷积带来的问题==，如小卷积核可能丢失长距离上下文信息，大卷积核可能引入背景噪声或生成过于稀疏的特征表示。

2.2 结构

2.2.1 局部特征提取

对于第$l$阶段第$n$个PKI Block中的PKI Module，首先通过$k{s}×k{s}$卷积（在实验中$k{s}=3$）对输入$X{l - 1,n}^{(2)}$进行局部特征提取，得到$L{l - 1,n}\in\mathbb{R}^{\frac{1}{2}C{l}×H{l}×W{l}}$。
2.2.2 多尺度上下文特征提取
接着使用一组并行的深度可分离卷积$DWConv{k^{(m)}×k^{(m)}}$（$m = 1,\cdots,4$，其中$k^{(m)}=(m + 1)×2+1$）对$L{l - 1,n}$进行卷积，得到不同尺度的上下文特征$Z{l - 1,n}^{(m)}\in\mathbb{R}^{\frac{1}{2}C{l}×H{l}×W{l}}$。

2.2.3 特征融合

将局部特征$L{l - 1,n}$和多尺度上下文特征$\sum{m = 1}^{4}Z{l - 1,n}^{(m)}$相加后，通过一个$1×1$卷积进行融合，得到输出特征$P{l - 1,n}\in\mathbb{R}^{\frac{1}{2}C{i}×H{i}×W_{i}}$。这个$1×1$卷积起到了通道融合的作用，能够整合不同感受野大小的特征。

在这里插入图片描述

2.3 优势

多尺度特征提取
- 能够有效捕获多尺度纹理特征，适应遥感图像中目标尺度变化大的特点，通过不同大小的卷积核组合，可以获取不同尺度的局部和上下文信息，提高对不同大小目标的检测能力。
避免特征稀疏和噪声问题
- 不使用扩张卷积，防止了提取过于稀疏的特征表示，同时相比于单纯使用大卷积核，避免了引入过多背景噪声，从而提高了特征的质量和检测的准确性。
特征融合优势
- 通过$1×1$卷积进行特征融合，能够合理地整合不同尺度的特征，在保留局部纹理特征完整性的同时，捕获到更广泛的上下文信息，使得提取的特征更具代表性和判别力。