YOLOv11改进策略【YOLO和Mamba】| 2024 VM-UNet,高效的特征提取模块VSS block 二次创新提高精度

简介: YOLOv11改进策略【YOLO和Mamba】| 2024 VM-UNet,高效的特征提取模块VSS block 二次创新提高精度

一、本文介绍

本文记录的是利用VM-UNet中的VSS block优化YOLOv11的目标检测网络模型VSS Block与传统模块不同,它汲取了VMamba模型的优势,通过特定结构设计,在保证计算效率的同时,精准建模局部特征学习长距离依赖实现局部特征的高效处理与长距离依赖关系的有效学习。本文将其应用于YOLOv11的改进与创新,能让模型更关注图像关键特征区域抑制背景等无关信息干扰,突出目标物体关键特征。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、VM-UNet模型介绍

VM-UNet: Vision Mamba UNet for Medical Image Segmentation

VM-UNet模型设计的出发点是解决现有CNN-basedTransformer-based模型在医学图像分割中的局限性,利用State Space Models(SSMs)的优势,提出一种更有效的医学图像分割模型。

具体来说,CNN-based模型在捕捉长距离信息方面存在不足,而Transformer-based模型由于自注意力机制的二次复杂度导致计算负担较重SSMs模型如Mamba不仅在建模长距离依赖方面表现出色,还具有线性计算复杂度,这为VM-UNet的设计提供了理论基础。

2.1 VSS block的原理

  • VSS block基于现代SSM模型中的线性常微分方程(ODE)进行工作。它将一维输入函数或序列$x(t)$通过中间隐状态$h(t)$映射到输出$y(t)$。其中,状态矩阵$A$、投影参数$B$和$C$在模型中起着关键作用。
  • S4Mamba通过引入时间尺度参数$\Delta$并使用零阶保持(ZOH)作为离散化规则,将连续系统离散化,使模型更适合深度学习场景。离散化后的SSM模型可以通过线性递归全局卷积两种方式进行计算。

    2.3 VSS block的结构

  • 图b所示,输入经过Layer Normalization后被分为两个分支。在第一个分支中,输入通过线性层激活函数(默认为SiLU)。在第二个分支中,输入经过线性层深度可分离卷积激活函数后,进入2D-Selective-Scan(SS2D)模块进行特征提取。

在这里插入图片描述

  • SS2D模块由扫描扩展(scan expanding)、S6块扫描合并(scan merging)三个组件组成。
      - <font color=navy>**扫描扩展**</font>操作将输入图像沿**四个不同方向**展开为序列,这些序列由`S6块`进行特征提取。
      - <font color=navy>**S6块**</font>基于Mamba的S4框架,通过调整SSM的参数来引入**选择性机制**,能够<font color=darkorange>**区分和保留相关信息,过滤无关信息**</font>。
      - <font color=navy>**扫描合并**</font>操作将**四个方向**的序列求和合并,恢复输出图像大小。
      - 最后,两个分支的特征经过`Layer Normalization`后进行元素积操作,再通过**线性层混合**,并与**残差连接**相结合,形成`VSS block`的输出。
    

在这里插入图片描述

2.3 VSS block的优势

  • 高效的特征提取能力:通过两个分支的设计和SS2D模块,能够从不同角度对输入特征进行处理,充分提取多样化的特征信息,从而提高模型对图像的理解能力。
  • 选择性机制增强相关性:S6块的选择性机制使模型能够聚焦于重要信息,减少无关信息的干扰,有助于提高分割的准确性。
  • 适应性强:在不同的数据集和任务中,VSS block能够根据输入数据的特点动态调整特征提取过程,从而适应各种复杂的医学图像分割任务。

论文:https://arxiv.org/pdf/2402.02491
源码: https://github.com/JCruan519/VM-UNet

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144259128

目录
相关文章
|
3天前
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
32 18
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
|
3天前
|
机器学习/深度学习 编解码 TensorFlow
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
29 14
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
|
3天前
|
机器学习/深度学习 计算机视觉 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
24 11
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
|
15小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
7 2
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
|
3天前
|
机器学习/深度学习 计算机视觉 网络架构
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
31 19
|
3天前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换传统下采样Conv 含二次创新C3k2
YOLOv11改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换传统下采样Conv 含二次创新C3k2
6 0
YOLOv11改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换传统下采样Conv 含二次创新C3k2
|
15小时前
|
机器学习/深度学习 TensorFlow 算法框架/工具
YOLOv11改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA,轻量化注意力模块 提高模型效率
YOLOv11改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA,轻量化注意力模块 提高模型效率
7 0
|
9月前
|
机器学习/深度学习 计算机视觉 知识图谱
【YOLOv8改进】MobileViT 更换主干网络: 轻量级、通用且适合移动设备的视觉变压器 (论文笔记+引入代码)
MobileViT是针对移动设备的轻量级视觉Transformer网络,结合CNN的局部特征、Transformer的全局注意力和ViT的表示学习。在ImageNet-1k上,它以600万参数实现78.4%的top-1准确率,超越MobileNetv3和DeiT。MobileViT不仅适用于图像分类,还在目标检测等任务中表现出色,且优化简单,代码已开源。YOLOv8引入了MobileViT块,整合卷积和Transformer结构,提升模型性能。更多详情可参考相关专栏和链接。
|
7月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts,纯卷积神经网络,更快更准,,降低参数量!
YOLOv8专栏探讨了针对目标检测的ConvNet创新,提出ConvNeXt模型,它挑战Transformer在视觉任务中的主导地位。ConvNeXt通过增大卷积核、使用GeLU激活、切换到LayerNorm和改进下采样层,提升了纯ConvNet性能,达到与Transformer相当的准确率和效率。论文和代码已公开。
|
9月前
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet :通过低成本操作获得更多特征 (论文笔记+引入代码).md
YOLO目标检测专栏探讨了卷积神经网络的创新改进,如Ghost模块,它通过低成本运算生成更多特征图,降低资源消耗,适用于嵌入式设备。GhostNet利用Ghost模块实现轻量级架构,性能超越MobileNetV3。此外,文章还介绍了SegNeXt,一个高效卷积注意力网络,提升语义分割性能,参数少但效果优于EfficientNet-L2。专栏提供YOLO相关基础解析、改进方法和实战案例。