一、本文介绍
本文记录的是利用GFPN
颈部结构优化RT-DETR的目标检测网络模型。利用GFPN
改进后的颈部网络,通过跳层连接,==避免了在进行反向传播时的梯度消失问题==,并且引入跨尺度连接,==可以实现不同级别和层次的特征充分融合,获取足够的高层语义信息和低层空间信息交换,从而在大规模变化场景下提高检测性能。==
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、GFPN介绍
GIRAFFEDET: A HEAVY-NECK PARADIGM FOR OBJECT DETECTION
2.1 设计出发点
- 传统的FPN及其改进方法存在一些局限性。例如,常规FPN(Lin et al., 2017a)只有单向的信息流动路径(top-down)来融合多尺度特征;PANet(Liu et al., 2018)虽增加了bottom-up路径聚合网络,但计算成本较高;BiFPN(Tan et al., 2020)对节点和连接进行了优化,但缺乏内部块连接。为了克服这些问题,同时实现高效的多尺度信息融合以应对目标检测中的大规模变化挑战,设计了GFPN模块。
2.2 原理
2.2.1 Skip-layer Connection(跳层连接)
- 目的:减少在“giraffe”这种复杂结构的颈部进行反向传播时的梯度消失问题。
- 具体方式:提出了两种特征连接方法,即dense-link和$log _{2} n$-link。
- dense-link:灵感来自DenseNet(Huang et al., 2017),对于级别$k$中的每个尺度特征$P{k}^{l}$,第$l$层接收所有前面层的特征图,即$P{k}^{l}=Conv\left(Concat\left(P{k}^{0},..., P{k}^{l - 1}\right)\right)$。
- $log _{2} n$-link:在每个级别$k$中,第$l$层接收最多$log {2} l + 1$个前面层的特征图,这些输入层与深度(i)以2为底呈指数间隔,即$P{k}^{l}=Conv\left(Concat\left(P{k}^{l - 2^{n}},..., P{k}^{l - 2^{1}}, P{k}^{l - 2^{0}}\right)\right)$,其中$l - 2^{n}≥0$。与dense-link相比,$log {2} n$-link在深度$l$处的时间复杂度仅为$O(l \cdot log _{2} l)$,而不是$O(l^{2})$,并且在反向传播时层间距离增加较小,可扩展到更深的网络。
2.2.2 Cross-scale Connection(跨尺度连接)
- 目的:为了实现充分的信息交换,克服大规模变化,不仅要有跳层连接,还需要跨尺度连接。
- 具体方式:提出了一种新的跨尺度融合方法Queen-fusion,它考虑了相同级别和相邻级别的特征。例如在$P{5}$处的Queen-fusion连接包括对前一层$P{4}$的下采样、前一层$P{6}$的上采样、前一层$P{5}$以及当前层$P_{4}$。在实现中,分别应用双线性插值和最大池化作为上采样和下采样函数。
2.3 结构
-GFPN包含了上述的跳层连接(dense-link和$log _{2} n$-link)以及跨尺度连接(Queen-fusion)。与其他FPN设计相比,如PANet和BiFPN,其每层代表一个深度,而PANet和BiFPN的层包含两个深度。
2.4 优势
- 高效的信息传输:$log _{2} n$-link这种跳层连接方式在相同的FLOPs水平下能提供更有效的信息传输,相比dense-link避免了可能的冗余信息传输,并且能使网络扩展到更深层次。
- 充分的信息融合:通过Queen-fusion这种跨尺度连接方式,可以实现不同级别和层次的特征充分融合,获取足够的高层语义信息和低层空间信息交换,从而在大规模变化场景下提高检测性能。
- 性能优势:实验结果表明,在不同的FLOPs水平下,GFPN都能使GiraffeDet模型在准确性和效率上取得较好的平衡,优于其他基于不同骨干网络和FPN结构的方法。例如在COCO数据集上的实验结果显示,GiraffeDet-D29采用GFPN结构在多尺度测试下取得了$54.1\%$的mAP,超过了其他SOTA方法。
论文:https://arxiv.org/pdf/2202.04256
源码:https://github.com/damo-cv/GiraffeDet
三、实现代码及RT-DETR修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: