一、本文介绍
本文记录的是将RMT应用于RT-DETR骨干网络的改进方法研究。RMT
通过构建基于曼哈顿距离的空间衰减矩阵,引入显式空间先验,同时提出新的注意力分解形式,在不破坏空间衰减矩阵的前提下,以线性复杂度对全局信息进行稀疏建模。将RMT
融入RT-DETR
的骨干网络,能够有效提升其对图像空间信息的感知能力,在减少计算量的同时增强特征提取效果,进而提高RT-DETR
在各项任务中的准确性与效率 。
在RT-DETR
的基础上配置了原论文中RMT_T
,RMT_S
,RMT_B
, RMT_L
四种模型,以满足不同的需求。
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、RMT原理介绍
RMT:Retentive Networks Meet Vision Transformers
RMT模型
是一种具有显式空间先验的视觉骨干网络,旨在解决Vision Transformer(ViT)
中自注意力机制存在的问题。其结构设计的出发点、原理和优势如下:
2.1 出发点
ViT
中的自注意力机制缺乏显式空间先验,且在对全局信息建模时具有二次计算复杂度,限制了ViT
的应用。为缓解这些问题,作者从自然语言处理领域的Retentive Network(RetNet)
中汲取灵感,提出RMT模型
。
2.2 结构原理
- Manhattan Self - Attention(MaSA):将
RetNet
中的单向一维时间衰减扩展为双向二维空间衰减,基于曼哈顿距离
引入显式空间先验。- 通过从单向到双向衰减、从一维到二维衰减的转换,并结合
Softmax函数
,构建了MaSA机制
。
- 通过从单向到双向衰减、从一维到二维衰减的转换,并结合
- 为降低计算成本,提出一种分解方法,沿图像的两个轴分解自注意力和空间衰减矩阵,使每个令牌的感受野形状与完整MaSA的感受野形状相同,从而保留显式空间先验。
- Local Context Enhancement(LCE)模块:为增强
MaSA
的局部表达能力,引入LCE模块
,使用DWConv
进一步提升模型性能。 - 整体架构:
RMT
基于MaSA
构建,分为四个阶段。前三个阶段使用分解后的MaSA
,最后一个阶段使用原始MaSA
。同时,模型中融入了CPE(Conditional Positional Encodings)
,为模型提供灵活的位置编码和更多位置信息。
2.3 优势
- 性能优越:在多个视觉任务上表现出色,如在ImageNet - 1K图像分类任务中,RMT - S在仅4.5GFLOPs的计算量下,Top1准确率达到84.1%;RMT - B在相似计算量下,比iFormer高出0.4%。在COCO检测任务和ADE20K语义分割任务中也取得了优异成绩,RMT - L在COCO检测任务中,box AP达到51.6,mask AP达到45.9;在ADE20K语义分割任务中,RMT - L的mIoU达到52.8。
- 推理速度快:与其他先进的视觉骨干网络相比,RMT在速度和准确性之间实现了最佳权衡(表9展示了RMT与其他模型的推理速度比较)。
论文:https://arxiv.org/pdf/2309.11523
源码:https://github.com/qhfan/RMT
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: