一、本文介绍
本文主要将RT-DETR中的CCFF颈部结构应用于 YOLOv11 以提升其性能。CCFF(Cross-scale Feature Fusion )
结构是基于对多尺度特征融合的深入分析与优化而设计。本文将其应用于YOLOv11
中,能够有效整合不同尺度的特征信息,减少特征交互中的计算冗余,使模型在处理目标物体特征时更加高效准确,增强模型对复杂场景中目标的检测能力。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、CCFF结构介绍
DETRs Beat YOLOs on Real-time Object Detection
RT-DETR
中的CCFF模块
用于优化多尺度特征融合,解决传统方法的计算瓶颈与冗余问题,提升模型速度与精度,以适应实时检测需求。
2.1 出发点
在多尺度特征处理中,传统的同时进行的intra-scale
和cross-scale
特征交互效率低,会使Transformer编码器成为计算瓶颈。为克服此问题,需重新设计特征融合方式,CCFF结构
应运而生。
2.2 结构原理
CCFF
基于cross-scale
融合模块优化而来。它在融合路径中插入多个由卷积层组成的融合块。每个融合块包含两个 1×1 卷积用于调整通道数,N个由 RepConv 组成的 RepBlocks 进行特征融合,最后两路输出通过element-wise add
融合。
其计算过程在高效混合编码器中与其他部分协同,如与AIFI
模块配合,先通过AIFI
对 $S{5}$ 进行 intra-scale 交互,再由CCFF
对${S{3}, S{4}, F{5}}$进行cross-scale
融合,其中$F_{5}$是 AIFI 处理后的结果。
2.3 作用
CCFF 模块
能有效融合相邻尺度特征为新特征,减少计算冗余,提高编码器效率,从而提升模型整体性能。
在实验中,对比不同编码器变体,包含CCFF模块
的变体在速度和精度上有更好表现,证明了其对多尺度特征处理的有效性,有助于模型在实时目标检测中取得更优结果。
论文:https://arxiv.org/abs/2304.08069
源码:https://github.com/lyuwenyu/RT-DETR
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: