RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块，获取局部和全局信息

2025-02-09 74

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块，获取局部和全局信息

一、本文介绍

本文记录的是基于MobileNet V4的RT-DETR目标检测轻量化改进方法研究。其中MobileViT块旨在以较少的参数对输入张量中的局部和全局信息进行建模，结合卷积与 Transformer 的优势，并实现有效的信息编码与融合，。本文配置了原论文中MobileViT-S、MobileViT-XS和MobileViT-XXS三种模型，以满足不同的需求。

模型	参数量	计算量	推理速度
rtdetr-l	32.8M	108.0GFLOPs	11.6ms
Improved	12.0M	32.3GFLOPs	8.9ms

专栏目录：RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：RT-DETR改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、MobileViT V1模型轻量化设计

MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

2.1 出发点

轻量级卷积神经网络（CNNs）虽在移动视觉任务中有应用，但存在空间局限性。基于自注意力的视觉Transformer（ViTs）虽可学习全局表示，但模型较重。因此需要结合两者优势，构建适用于移动视觉任务的轻量级、低延迟网络。
2.2 原理
将Transformer视为卷积，学习全局表示的同时，隐式地结合卷积的特性（如空间偏差），并能用简单的训练方法（如基本的数据增强）学习表示，还能轻松与下游架构集成。
2.3 结构

2.3.1 MobileViT块
- 对于输入张量$x\in\mathbb{R}^{H\times W\times C}$，先应用$n\times n$标准卷积层，再用点式（或$1\times1$）卷积层得到$X_{L}\in\mathbb{R}^{H\times W\times d}$。
- 将$X{L}$展开为$N$个非重叠的扁平块$X{U}\in\mathbb{R}^{P\times N\times d}$，对每个块应用Transformer得到$X_{G}\in\mathbb{R}^{P\times N\times d}$。
- 折叠$X{G}$得到$X{F}\in\mathbb{R}^{H\times W\times d}$，经点式卷积投影到低维空间后与$X$通过拼接操作合并，再用一个$n\times n$卷积层融合这些拼接特征。
  2.3.2 整体架构
- 受轻量级CNNs启发，网络在不同参数预算下有不同配置。初始层是步长为$3\times3$的标准卷积，接着是MobileNetv2块和MobileViT块。使用Swish作为激活函数，在MobileViT块中$n = 3$，特征图的空间维度通常是$2$的倍数且$h, w\leq n$，设置$h = w = 2$。

在这里插入图片描述

2.4 优势

性能更好：在不同移动视觉任务中，对于给定的参数预算，MobileViT比现有的轻量级CNNs性能更好。例如在ImageNet - 1k数据集上，约600万个参数时，MobileViT的top - 1准确率比MobileNetv3高3.2%。
- 泛化能力强：泛化能力指训练和评估指标之间的差距。与之前的ViT变体相比，MobileViT显示出更好的泛化能力。
- 鲁棒性好：对超参数（如数据增强和L2正则化）不敏感，用基本的数据增强方法训练，对L2正则化不太敏感。
- 计算成本：理论上，MobileViT的多头自注意力计算成本为$O(N^{2}Pd)$，比ViT的$O(N^{2}d)$低效，但实际上更高效。例如在ImageNet - 1K数据集上，MobileViT比DeIT的FLOP少$2X$，准确率高1.8%。

论文：https://arxiv.org/pdf/2110.02178
源码：https://github.com/apple/ml-cvnets

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/144212976

RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块，获取局部和全局信息

一、本文介绍

二、MobileViT V1模型轻量化设计

2.1 出发点

2.2 原理

2.3 结构

2.3.1 MobileViT块

2.3.2 整体架构

2.4 优势

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块，获取局部和全局信息

一、本文介绍

二、MobileViT V1模型轻量化设计

2.1 出发点

2.2 原理

2.3 结构

2.3.1 MobileViT块

2.3.2 整体架构

2.4 优势

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关电子书