YOLOv11改进策略【模型轻量化】| EMO：ICCV 2023，结构简洁的轻量化自注意力模型

2025-02-04 36

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【模型轻量化】| EMO：ICCV 2023，结构简洁的轻量化自注意力模型

一、本文介绍

本文记录的是基于EMO的YOLOv11轻量化改进方法研究。EMO设计简洁，仅由iRMB构成4阶段架构，无复杂操作与模块，无需精细调整超参数。其中iRMB通过特定算子设计，用DW - Conv和EW - MHSA分别建模短/长距离依赖关系，在降低计算量的同时保障精度。将EMO应用到YOLOv11的骨干网络中，使模型在保持轻量化的前提下，提升其在目标检测任务中的性能。

本文在YOLOv11的基础上配置了原论文中EMO_1M, EMO_2M, EMO_5M, EMO_6M四种模型，以满足不同的需求。

模型	参数量	计算量	推理速度
YOLOv11m	20.0M	67.6GFLOPs	3.5ms
Improved	15.0M	53.9GFLOPs	-

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、EMO原理介绍

RethinkingMobileBlockforEfficientAttention-basedModels

EMO模型旨在为移动应用设计高效的基于注意力的轻量级模型，在多个视觉任务上取得了优异的性能。以下从出发点、结构原理和优势三个方面详细介绍：

2.1 出发点

随着对存储和计算资源有限的移动应用中高效视觉模型需求的增加，传统基于CNN的模型受静态CNN自然归纳偏差限制，准确性有待提高；
基于注意力的模型虽有优势，但因多头自注意力MHSA计算量呈二次方增长，资源消耗大。
此外，当前高效混合模型存在结构复杂或模块繁多的问题，不利于应用优化。

因此，需要探索为基于注意力的模型构建类似IRB的轻量级基础架构。

2.2 结构原理

Meta Mobile Block（元移动块）：从MobileNetv2的倒残差块（IRB）和Transformer的核心模块MHSA、FFN重新思考，归纳抽象出元移动块（MMB）。
以图像输入$X(\in \mathbb{R}^{C ×H ×W})$为例，MMB首先通过输出/输入比为λ的扩展$MLP{e}$扩展通道维度，得到$X{e}=MLP{e}(X)\left(\in \mathbb{R}^{\lambda C × H × W}\right)$；然后通过高效算子F增强图像特征；最后通过输入/输出比为λ的收缩$MLP{s}$收缩通道维度，得到$X{s}=MLP{s}\left(X{f}\right)\left(\in \mathbb{R}^{C × H × W}\right)$，并通过残差连接得到最终输出$Y = X + X{s}(\in \mathbb{R}^{C ×H ×W})$ 。

在这里插入图片描述

Inverted Residual Mobile Block（倒残差移动块，iRMB）：基于MMB，将iRMB中的F建模为级联的MHSA和卷积操作，即$F(\cdot)=Conv(MHSA(\cdot))$。为解决高成本问题，采用高效的窗口MHSA（WMHSA）和深度可分离卷积（DW-Conv）并添加残差连接，同时提出改进的EW - MHSA，即$Q = K = X(\in \mathbb{R}^{C ×H ×W})$，$V(\in \mathbb{R}^{\lambda C ×H ×W})$，公式为$\mathcal{F}(\cdot)=( DW-Conv, Skip )(EW-MHSA (\cdot))$。

在这里插入图片描述

EMO整体架构：设计了基于一系列iRMB的类似ResNet的4阶段高效模型（EMO）。整体框架仅由iRMB组成，无多样化模块；iRMB仅包含标准卷积和多头自注意力，无需其他复杂算子，且能通过步长适应下采样操作，无需位置嵌入；采用逐渐增加的扩展率和通道数。

在这里插入图片描述

2.3 优势

性能卓越：在ImageNet - 1K、COCO2017和ADE20K等基准测试上，EMO表现出色。）。
计算高效：与其他模型相比，EMO在参数数量和计算量上更具优势。）。
设计简洁：遵循简单的设计准则，模型结构简洁，仅由iRMB组成，避免了复杂的操作和模块，更易于优化和部署。

论文：https://arxiv.org/pdf/2301.01146
源码：https://github.com/zhangzjn/EMO

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/145115842

YOLOv11改进策略【模型轻量化】| EMO：ICCV 2023，结构简洁的轻量化自注意力模型

一、本文介绍

二、EMO原理介绍

2.1 出发点

2.2 结构原理

2.3 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

YOLOv11改进策略【模型轻量化】| EMO：ICCV 2023，结构简洁的轻量化自注意力模型

一、本文介绍

二、EMO原理介绍

2.1 出发点

2.2 结构原理

2.3 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景