YOLOv11改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块轻量化的注意力模块

2025-02-04 16

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块轻量化的注意力模块

一、本文介绍

本文记录的是利用iRMB模块优化YOLOv11的目标检测网络模型。iRMB（Inverted Residual Mobile Block）的作用在于克服了常见模块无法同时吸收CNN 效率建模局部特征和利用Transformer 动态建模能力学习长距离交互的问题。相比一些复杂结构或多个混合模块的方法，能更好地权衡模型成本和精度。本文将其用于v11的模型改进和二次创新，更好地突出重要特征，提升模型性能。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、iRMB注意力介绍

Rethinking Mobile Block for Efficient Attention-based Models

2.1 设计出发点

统一CNN和Transformer优势：从高效的Inverted Residual Block（IRB）和Transformer的有效组件出发，期望在基础设施设计层面整合两者优势，为注意力模型构建类似IRB的轻量级基础结构。
解决现有模型问题：当前方法存在引入复杂结构或多个混合模块的问题，不利于应用优化。希望通过重新思考IRB和Transformer组件，构建简单有效的模块。

2.2 原理

基于Meta Mobile Block（MMB）：MMB是通过对MobileNetv2中的IRB和Transformer中的核心MHSA及FFN模块重新思考并归纳抽象得到的。它以参数化的扩展比率λ和高效算子F来实例化不同模块（如IRB、MHSA、FFN），揭示了这些模块的一致本质表达。

在这里插入图片描述

遵循通用高效模型准则：设计遵循可用性（简单实现，不使用复杂算子，易于应用优化）、均匀性（核心模块少，降低模型复杂度，加速部署）、有效性（分类和密集预测性能好）、效率（参数和计算少，权衡精度）的准则。

2.3 结构

2.3.1 主要组成部分

从微观角度看，iRMB由Depth - Wise Convolution（DW - Conv）和改进的Expanded Window MHSA（EW - MHSA）组成。

2.3.2 具体操作流程

首先，类似MMB的操作，使用扩展MLP（$MLP{e}$）以输出/输入比等于λ来扩展通道维度，即$X{e}=MLP_{e}(X)\left(\in \mathbb{R}^{\lambda C × H × W}\right)$。
然后，中间算子F进一步增强图像特征，这里F被建模为级联的MHSA和卷积操作，即$F(\cdot)=Conv(MHSA(\cdot))$，具体采用DW - Conv和EW - MHSA的组合，其中EW - MHSA计算注意力矩阵的方式为$Q = K = X(\in \mathbb{R}^{C ×H ×W})$，而扩展值$x_{e}$用于$V(\in \mathbb{R}^{\lambda C ×H ×W})$。
最后，使用收缩$MLP$（$MLP{s}$）以倒置的输入/输出比等于λ来收缩通道维度，即$X{s}=MLP{s}\left(X{f}\right)\left(\in \mathbb{R}^{C × H × W}\right)$，并通过残差连接得到最终输出$Y = X + X_{s}(\in \mathbb{R}^{C ×H ×W})$。

在这里插入图片描述

2.4 优势

吸收CNN和Transformer优点：既能吸收CNN的效率来建模局部特征，又能利用Transformer的动态建模能力学习长距离交互。
降低模型成本
- 通过采用高效的Window - MHSA（WMHSA）和Depth - Wise Convolution（DW - Conv）并带有跳跃连接，权衡了模型成本和精度。
- 设计灵活性高，如不同深度可采用不同设置，满足性能需求的同时保持结构简洁。
性能优势
- 在ImageNet - 1K数据集上进行图像分类实验，iRMB替换标准Transformer结构后，在相同训练设置下能以更少的参数和计算提高性能。
- 在下游任务（如目标检测和语义分割）中，基于iRMB构建的EMO模型在多个基准测试中取得了非常有竞争力的结果，超过了当前的SoTA方法。

论文：https://arxiv.org/pdf/2301.01146.pdf
源码： https://github.com/zhangzjn/EMO

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/143327188

YOLOv11改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块轻量化的注意力模块

一、本文介绍

二、iRMB注意力介绍

2.1 设计出发点

2.2 原理

2.3 结构

2.3.1 主要组成部分

2.3.2 具体操作流程

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

YOLOv11改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块

一、本文介绍

二、iRMB注意力介绍

2.1 设计出发点

2.2 原理

2.3 结构

2.3.1 主要组成部分

2.3.2 具体操作流程

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

YOLOv11改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块轻量化的注意力模块