YOLOv11改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型

简介: YOLOv11改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型

一、本文介绍

本文记录的是基于EMO的YOLOv11轻量化改进方法研究EMO设计简洁,仅由iRMB构成4阶段架构,无复杂操作与模块,无需精细调整超参数。其中iRMB通过特定算子设计,用DW - ConvEW - MHSA分别建模短/长距离依赖关系,在降低计算量的同时保障精度。将EMO应用到YOLOv11的骨干网络中,使模型在保持轻量化的前提下,提升其在目标检测任务中的性能。

本文在YOLOv11的基础上配置了原论文中EMO_1M, EMO_2M, EMO_5M, EMO_6M四种模型,以满足不同的需求。

模型 参数量 计算量 推理速度
YOLOv11m 20.0M 67.6GFLOPs 3.5ms
Improved 15.0M 53.9GFLOPs -

专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、EMO原理介绍

RethinkingMobileBlockforEfficientAttention-basedModels

EMO模型旨在为移动应用设计高效的基于注意力的轻量级模型,在多个视觉任务上取得了优异的性能。以下从出发点、结构原理和优势三个方面详细介绍:

2.1 出发点

  1. 随着对存储和计算资源有限的移动应用中高效视觉模型需求的增加,传统基于CNN的模型受静态CNN自然归纳偏差限制,准确性有待提高;
  2. 基于注意力的模型虽有优势,但因多头自注意力MHSA计算量呈二次方增长,资源消耗大。
  3. 此外,当前高效混合模型存在结构复杂或模块繁多的问题,不利于应用优化。

因此,需要探索为基于注意力的模型构建类似IRB的轻量级基础架构

2.2 结构原理

  • Meta Mobile Block(元移动块):从MobileNetv2倒残差块(IRB)Transformer的核心模块MHSAFFN重新思考,归纳抽象出元移动块(MMB)
  • 以图像输入$X(\in \mathbb{R}^{C ×H ×W})$为例,MMB首先通过输出/输入比为λ的扩展$MLP{e}$扩展通道维度,得到$X{e}=MLP{e}(X)\left(\in \mathbb{R}^{\lambda C × H × W}\right)$;然后通过高效算子F增强图像特征;最后通过输入/输出比为λ的收缩$MLP{s}$收缩通道维度,得到$X{s}=MLP{s}\left(X{f}\right)\left(\in \mathbb{R}^{C × H × W}\right)$,并通过残差连接得到最终输出$Y = X + X{s}(\in \mathbb{R}^{C ×H ×W})$ 。

在这里插入图片描述

  • Inverted Residual Mobile Block(倒残差移动块,iRMB):基于MMB,将iRMB中的F建模为级联的MHSA卷积操作,即$F(\cdot)=Conv(MHSA(\cdot))$。为解决高成本问题,采用高效的窗口MHSA(WMHSA)深度可分离卷积(DW-Conv)并添加残差连接,同时提出改进的EW - MHSA,即$Q = K = X(\in \mathbb{R}^{C ×H ×W})$,$V(\in \mathbb{R}^{\lambda C ×H ×W})$,公式为$\mathcal{F}(\cdot)=( DW-Conv, Skip )(EW-MHSA (\cdot))$。

在这里插入图片描述

  • EMO整体架构:设计了基于一系列iRMB的类似ResNet的4阶段高效模型(EMO)。整体框架仅由iRMB组成,无多样化模块;iRMB仅包含标准卷积多头自注意力,无需其他复杂算子,且能通过步长适应下采样操作,无需位置嵌入;采用逐渐增加的扩展率和通道数。

在这里插入图片描述

2.3 优势

  • 性能卓越:在ImageNet - 1K、COCO2017和ADE20K等基准测试上,EMO表现出色。)。
  • 计算高效:与其他模型相比,EMO在参数数量和计算量上更具优势。)。
  • 设计简洁:遵循简单的设计准则,模型结构简洁,仅由iRMB组成,避免了复杂的操作和模块,更易于优化和部署 。

论文:https://arxiv.org/pdf/2301.01146
源码:https://github.com/zhangzjn/EMO

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145115842

目录
相关文章
|
机器学习/深度学习 存储 编解码
高效神经网络架构的正确打开方式! | EMO:结合 CNN 和 Transformer
高效神经网络架构的正确打开方式! | EMO:结合 CNN 和 Transformer
1262 0
|
3天前
|
机器学习/深度学习 编解码 自动驾驶
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
32 16
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
3天前
|
机器学习/深度学习 计算机视觉 iOS开发
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
26 12
|
14小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| NeurIPS 2023 融合GOLD-YOLO颈部结构,强化小目标检测能力
YOLOv11改进策略【Neck】| NeurIPS 2023 融合GOLD-YOLO颈部结构,强化小目标检测能力
17 9
YOLOv11改进策略【Neck】| NeurIPS 2023 融合GOLD-YOLO颈部结构,强化小目标检测能力
|
15小时前
|
机器学习/深度学习 TensorFlow 算法框架/工具
YOLOv11改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA,轻量化注意力模块 提高模型效率
YOLOv11改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA,轻量化注意力模块 提高模型效率
7 0
|
7月前
|
机器学习/深度学习 算法 网络架构
【YOLOv8改进 - Backbone主干】EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
【YOLOv8改进 - Backbone主干】EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
|
5月前
|
机器学习/深度学习 自然语言处理 PyTorch
Transformer实战:从零开始构建一个简单的Transformer模型
本文详细介绍了一种在自然语言处理(NLP)和序列到序列任务中表现出色的深度学习架构——Transformer模型。文章首先概述了Transformer的基本结构及其核心组件,包括自注意力机制、多头注意力、位置编码以及残差连接和层归一化等。随后,通过Python和PyTorch演示了如何构建一个简单的Transformer模型,包括位置编码和多头注意力的具体实现。通过学习本文,读者可以深入理解Transformer的工作原理并掌握其实现方法。
|
9月前
|
机器学习/深度学习 数据可视化 计算机视觉
【YOLOv8改进】MCA:用于图像识别的深度卷积神经网络中的多维协作注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的创新改进和实战案例,包括多维协作注意力(MCA)机制,它通过三分支架构同时处理通道、高度和宽度注意力,提高CNN性能。MCA设计了自适应组合和门控机制,增强特征表示,且保持轻量化。该模块适用于各种CNN,实验证明其在图像识别任务上的优越性。此外,文章还展示了如何在YOLOv8中引入MCA层的代码实现和相关任务配置。
|
机器学习/深度学习 计算机视觉 文件存储
【轻量化网络系列(3)】MobileNetV3论文超详细解读(翻译 +学习笔记+代码实现)
【轻量化网络系列(3)】MobileNetV3论文超详细解读(翻译 +学习笔记+代码实现)
3991 0
【轻量化网络系列(3)】MobileNetV3论文超详细解读(翻译 +学习笔记+代码实现)
|
机器学习/深度学习 编解码 计算机视觉
【轻量化网络系列(2)】MobileNetV2论文超详细解读(翻译 +学习笔记+代码实现)
【轻量化网络系列(2)】MobileNetV2论文超详细解读(翻译 +学习笔记+代码实现)
1565 0
【轻量化网络系列(2)】MobileNetV2论文超详细解读(翻译 +学习笔记+代码实现)