RT-DETR改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型

简介: RT-DETR改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型

一、本文介绍

本文记录的是基于EMO的RT-DETR轻量化改进方法研究EMO设计简洁,仅由iRMB构成4阶段架构,无复杂操作与模块,无需精细调整超参数。其中iRMB通过特定算子设计,用DW - ConvEW - MHSA分别建模短/长距离依赖关系,在降低计算量的同时保障精度。将EMO应用到RT-DETR的骨干网络中,使模型在保持轻量化的前提下,提升其在目标检测任务中的性能。

本文在RT-DETR的基础上配置了原论文中EMO_1M, EMO_2M, EMO_5M, EMO_6M四种模型,以满足不同的需求。

模型 参数量 计算量
rtdetr-l 32.8M 108.0GFLOPs
Improved 22.9M 64.6GFLOPs

专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、EMO原理介绍

RethinkingMobileBlockforEfficientAttention-basedModels

EMO模型旨在为移动应用设计高效的基于注意力的轻量级模型,在多个视觉任务上取得了优异的性能。以下从出发点、结构原理和优势三个方面详细介绍:

2.1 出发点

  1. 随着对存储和计算资源有限的移动应用中高效视觉模型需求的增加,传统基于CNN的模型受静态CNN自然归纳偏差限制,准确性有待提高;
  2. 基于注意力的模型虽有优势,但因多头自注意力MHSA计算量呈二次方增长,资源消耗大。
  3. 此外,当前高效混合模型存在结构复杂或模块繁多的问题,不利于应用优化。

因此,需要探索为基于注意力的模型构建类似IRB的轻量级基础架构

2.2 结构原理

  • Meta Mobile Block(元移动块):从MobileNetv2倒残差块(IRB)Transformer的核心模块MHSAFFN重新思考,归纳抽象出元移动块(MMB)
  • 以图像输入$X(\in \mathbb{R}^{C ×H ×W})$为例,MMB首先通过输出/输入比为λ的扩展$MLP{e}$扩展通道维度,得到$X{e}=MLP{e}(X)\left(\in \mathbb{R}^{\lambda C × H × W}\right)$;然后通过高效算子F增强图像特征;最后通过输入/输出比为λ的收缩$MLP{s}$收缩通道维度,得到$X{s}=MLP{s}\left(X{f}\right)\left(\in \mathbb{R}^{C × H × W}\right)$,并通过残差连接得到最终输出$Y = X + X{s}(\in \mathbb{R}^{C ×H ×W})$ 。

在这里插入图片描述

  • Inverted Residual Mobile Block(倒残差移动块,iRMB):基于MMB,将iRMB中的F建模为级联的MHSA卷积操作,即$F(\cdot)=Conv(MHSA(\cdot))$。为解决高成本问题,采用高效的窗口MHSA(WMHSA)深度可分离卷积(DW-Conv)并添加残差连接,同时提出改进的EW - MHSA,即$Q = K = X(\in \mathbb{R}^{C ×H ×W})$,$V(\in \mathbb{R}^{\lambda C ×H ×W})$,公式为$\mathcal{F}(\cdot)=( DW-Conv, Skip )(EW-MHSA (\cdot))$。

在这里插入图片描述

  • EMO整体架构:设计了基于一系列iRMB的类似ResNet的4阶段高效模型(EMO)。整体框架仅由iRMB组成,无多样化模块;iRMB仅包含标准卷积多头自注意力,无需其他复杂算子,且能通过步长适应下采样操作,无需位置嵌入;采用逐渐增加的扩展率和通道数。

在这里插入图片描述

2.3 优势

  • 性能卓越:在ImageNet - 1K、COCO2017和ADE20K等基准测试上,EMO表现出色。)。
  • 计算高效:与其他模型相比,EMO在参数数量和计算量上更具优势。)。
  • 设计简洁:遵循简单的设计准则,模型结构简洁,仅由iRMB组成,避免了复杂的操作和模块,更易于优化和部署 。

论文:https://arxiv.org/pdf/2301.01146
源码:https://github.com/zhangzjn/EMO

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145284312

目录
相关文章
|
1天前
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
77 63
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
|
5天前
|
机器学习/深度学习 存储 测试技术
YOLOv11改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型
YOLOv11改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型
50 13
YOLOv11改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型
|
1天前
|
机器学习/深度学习 算法 文件存储
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
15 4
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
1天前
|
机器学习/深度学习 编解码 自动驾驶
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
15 3
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
1天前
|
机器学习/深度学习 算法 计算机视觉
RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
9 1
RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
|
1天前
|
机器学习/深度学习 人工智能 并行计算
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
9 1
RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制
|
5天前
|
机器学习/深度学习 算法 计算机视觉
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
23 3
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
|
5天前
|
机器学习/深度学习 计算机视觉 iOS开发
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
32 12
|
1天前
|
机器学习/深度学习 计算机视觉 iOS开发
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
13 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
|
1天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
RT-DETR改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA,轻量化注意力模块 提高模型效率
RT-DETR改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA,轻量化注意力模块 提高模型效率
21 2

热门文章

最新文章