RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点

简介: RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点

一、本文介绍

本文记录的是利用Mamba-YOLO优化RT-DETR的目标检测网络模型Mamba-YOLO模型是一种基于状态空间模型(SSM)的目标检测模型,旨在解决传统目标检测模型在处理复杂场景和长距离依赖关系时的局限性,是目前最新的发文热点。本文分成三个章节分别介绍Mamba-YOLO模型结构中各个模块的设计结构和优势,本章讲解ODSSBlock模块,并在文末配置Mamba-RT-DETR-B网络结构。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

Mamba YOLO:SSMs-Based YOLO For Object Detection

在这里插入图片描述


二、ODSSBlock 模块介绍

ODSSBlock(Object Detection State Space Block)是Mamba - YOLO模型中的核心模块,对于提升模型的目标检测能力起着关键作用。它主要负责对输入特征进行深度处理,以学习更丰富和有效的特征表示,从而提高模型对目标物体的检测精度。

2.1 设计结构

  1. 输入预处理:输入特征首先经过$1×1$卷积批归一化激活函数进行预处理。这一步骤有助于调整特征的维度、分布,并引入非线性激活,使网络能够学习到更复杂的特征关系。公式表示为:$$Z^{l - 2}=\hat{\Phi}(BN(Conv_{1×1}(Z^{l - 3})))$$其中$\hat{\Phi}$表示SiLU激活函数

  2. Layer Normalization与Residual Linking:借鉴Transformer Blocks的风格架构,采用Layer Normalization对特征进行归一化处理,以加速模型的训练和收敛。同时,引入残差连接(Residual Linking),使得模型在深度堆叠时能够保持信息的有效流动,避免梯度消失或爆炸问题,确保网络能够高效地学习深层次的特征表示。计算过程为:$$Z^{l - 1}=SS2D(LN(LS(Z^{l - 2})))+Z^{l - 2}$$

  3. SS2D操作SS2D(2D - Selective - Scan)是ODSSBlock中的重要操作,它主要包括扫描扩展(Scan Expansion)、S6块处理(S6 Block)和扫描合并(Scan Merge)三个步骤(如图所示)。

    • 扫描扩展:将输入图像扩展为一系列子图像,从对角线视角看,沿着四个对称方向(自上而下、自下而上、从左到右、从右到左)进行扫描,每个方向的扫描结果形成一个序列。这样的布局全面覆盖输入图像的所有区域,为后续特征提取提供丰富的多维信息基础,增强了图像特征多维捕获的效率和全面性。
    • S6块处理:对扫描扩展得到的子图像进行特征提取操作,是SS2D算法中对图像子块进行特征提取的关键步骤。
    • 扫描合并:将来自不同方向的经过S6块处理后的序列作为输入,将这些子图像序列合并在一起,形成与输入图像大小相同的输出图像,从而将不同方向提取的特征融合起来,实现从局部特征到全局特征的提取。

在这里插入图片描述

  1. LocalSpatial Block(LS Block)LS Block主要用于增强对局部特征的捕获能力。它对输入特征先进行深度可分离卷积,以提取局部空间信息,降低计算成本和参数数量。接着通过$1×1$卷积混合通道信息,使用非线性GELU激活函数改变特征的通道数量而不改变空间维度,增强特征表示。最后将原始输入与处理后的特征通过残差连接融合。公式为:$$F^{l}=Conv_{1×1}(\Phi(Conv_{1×1}(F^{l - 1})))\oplus F^{l - 2}$$其中$F^{l}$是输出特征,$\Phi$表示激活函数(GELU)。

在这里插入图片描述

  1. ResGated Block(RG Block)RG Block旨在以较低的计算成本提高模型性能,通过引入门控机制和深度卷积残差连接,能够有效地捕捉像素级别的局部依赖关系,同时将全局依赖关系和特征传递到每个像素,使模型对图像中的细粒度特征更加敏感,增强模型的表达能力。

    它从输入创建两个分支,在每个分支上以$1×1$卷积实现全连接层操作。一个分支使用深度可分离卷积(DW - Conv)作为位置编码模块,并通过残差连接回流梯度。采用非线性GeLU作为激活函数,两个分支通过元素乘法合并,然后通过$1×1$卷积融合通道信息,最后与原始输入通过残差连接相加。输出特征$X^{l}$的计算公式为:$$X^{l}=Conv_{1×1}(X_{1}^{l - 1}\odot\Phi(DWConv_{3×3}(X_{2}^{l - 1})\oplus X_{2}^{l - 1}))\oplus X^{l - 2}$$其中$\odot$表示元素乘法,$\Phi$表示激活函数(GeLU)。

在这里插入图片描述

  1. 最终输出:经过上述一系列处理后,ODSSBlock通过残差连接将处理后的特征与原始输入相加,得到最终的输出特征,公式为:$$Z^{l}=RG(LN(Z^{l - 1})) + Z^{l - 1}$$

在这里插入图片描述

2.2 优势

  1. 高效的特征处理ODSSBlock通过一系列精心设计的操作,包括输入预处理Layer Normalization残差连接SS2D操作以及LS BlockRG Block的协同工作,能够高效地处理输入特征。在保持深度堆叠的情况下,确保网络能够稳定训练,同时有效提取图像的局部和全局特征,为目标检测提供丰富的特征信息。
  2. 增强的局部特征捕获LS Block通过深度可分离卷积和残差连接,在降低计算成本的同时增强了对局部空间信息的提取能力,提高了模型对不同尺度目标的检测能力,增强了模型对尺度变化的鲁棒性
  3. 全局特征整合与表达RG Block在捕获像素级别的局部依赖关系的同时,有效地整合了全局特征信息,增强了模型的表达能力,有助于提高模型对目标物体的定位和识别准确性
  4. 多方向特征融合SS2D操作这种多方向的特征融合方式使得模型能够更全面地理解图像中的目标物体及其上下文关系,提高了模型在复杂场景下的检测性能。

论文:https://arxiv.org/pdf/2406.05835
源码:https://github.com/HZAI-ZJNU/Mamba-YOLO

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144024703

目录
相关文章
|
1天前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点
12 3
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点
|
1天前
|
编解码 计算机视觉
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-T !!! 最新的发文热点
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-T !!! 最新的发文热点
9 2
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-T !!! 最新的发文热点
|
2天前
|
机器学习/深度学习 自然语言处理 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
28 13
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
|
2天前
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
29 12
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
|
2天前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新
RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新
29 13
RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新
|
2天前
|
机器学习/深度学习 编解码 数据可视化
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
23 11
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
|
2天前
|
机器学习/深度学习 测试技术 网络架构
RT-DETR改进策略【卷积层】| NeurIPS-2022 ParNet 即插即用模块 二次创新ResNetLayer
RT-DETR改进策略【卷积层】| NeurIPS-2022 ParNet 即插即用模块 二次创新ResNetLayer
22 10
RT-DETR改进策略【卷积层】| NeurIPS-2022 ParNet 即插即用模块 二次创新ResNetLayer
|
1天前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| NeurIPS 2023 融合GOLD-YOLO颈部结构,强化小目标检测能力
RT-DETR改进策略【Neck】| NeurIPS 2023 融合GOLD-YOLO颈部结构,强化小目标检测能力
28 17
RT-DETR改进策略【Neck】| NeurIPS 2023 融合GOLD-YOLO颈部结构,强化小目标检测能力
|
1天前
|
机器学习/深度学习 人工智能 并行计算
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
9 1
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
|
5天前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
20 10
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点

热门文章

最新文章