一、本文介绍
本文记录的是基于EMO的YOLOv11轻量化改进方法研究。EMO
设计简洁,仅由iRMB
构成4阶段架构,无复杂操作与模块,无需精细调整超参数。其中iRMB
通过特定算子设计,用DW - Conv
和EW - MHSA
分别建模短/长距离依赖关系,在降低计算量的同时保障精度。将EMO
应用到YOLOv11
的骨干网络中,使模型在保持轻量化的前提下,提升其在目标检测任务中的性能。
本文在YOLOv11
的基础上配置了原论文中EMO_1M
, EMO_2M
, EMO_5M
, EMO_6M
四种模型,以满足不同的需求。
模型 | 参数量 | 计算量 | 推理速度 |
---|---|---|---|
YOLOv11m | 20.0M | 67.6GFLOPs | 3.5ms |
Improved | 15.0M | 53.9GFLOPs | - |
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、EMO原理介绍
RethinkingMobileBlockforEfficientAttention-basedModels
EMO模型
旨在为移动应用设计高效的基于注意力的轻量级模型,在多个视觉任务上取得了优异的性能。以下从出发点、结构原理和优势三个方面详细介绍:
2.1 出发点
- 随着对存储和计算资源有限的移动应用中高效视觉模型需求的增加,传统基于CNN的模型受静态CNN自然归纳偏差限制,准确性有待提高;
- 基于注意力的模型虽有优势,但因
多头自注意力MHSA
计算量呈二次方增长,资源消耗大。 - 此外,当前高效混合模型存在结构复杂或模块繁多的问题,不利于应用优化。
因此,需要探索为基于注意力的模型构建类似IRB的轻量级基础架构。
2.2 结构原理
- Meta Mobile Block(元移动块):从
MobileNetv2
的倒残差块(IRB)
和Transformer
的核心模块MHSA
、FFN
重新思考,归纳抽象出元移动块(MMB)
。 - 以图像输入$X(\in \mathbb{R}^{C ×H ×W})$为例,MMB首先通过输出/输入比为λ的扩展$MLP{e}$扩展通道维度,得到$X{e}=MLP{e}(X)\left(\in \mathbb{R}^{\lambda C × H × W}\right)$;然后通过高效算子F增强图像特征;最后通过输入/输出比为λ的收缩$MLP{s}$收缩通道维度,得到$X{s}=MLP{s}\left(X{f}\right)\left(\in \mathbb{R}^{C × H × W}\right)$,并通过残差连接得到最终输出$Y = X + X{s}(\in \mathbb{R}^{C ×H ×W})$ 。
- Inverted Residual Mobile Block(倒残差移动块,iRMB):基于
MMB
,将iRMB
中的F建模为级联的MHSA
和卷积操作
,即$F(\cdot)=Conv(MHSA(\cdot))$。为解决高成本问题,采用高效的窗口MHSA(WMHSA)
和深度可分离卷积(DW-Conv)
并添加残差连接
,同时提出改进的EW - MHSA
,即$Q = K = X(\in \mathbb{R}^{C ×H ×W})$,$V(\in \mathbb{R}^{\lambda C ×H ×W})$,公式为$\mathcal{F}(\cdot)=( DW-Conv, Skip )(EW-MHSA (\cdot))$。
- EMO整体架构:设计了基于一系列
iRMB
的类似ResNet的4阶段高效模型(EMO)。整体框架仅由iRMB
组成,无多样化模块;iRMB
仅包含标准卷积和多头自注意力,无需其他复杂算子,且能通过步长适应下采样操作,无需位置嵌入;采用逐渐增加的扩展率和通道数。
2.3 优势
- 性能卓越:在ImageNet - 1K、COCO2017和ADE20K等基准测试上,EMO表现出色。)。
- 计算高效:与其他模型相比,EMO在参数数量和计算量上更具优势。)。
- 设计简洁:遵循简单的设计准则,模型结构简洁,仅由iRMB组成,避免了复杂的操作和模块,更易于优化和部署 。
论文:https://arxiv.org/pdf/2301.01146
源码:https://github.com/zhangzjn/EMO三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: