YOLOv11 改进 - 主干网络| 集成Mamba-YOLO（AAAI 2025），Mamba-YOLOv11-T 替换骨干，破解全局依赖建模难题，实现高效实时检测

2025-12-27 18

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Mamba YOLO提出将状态空间模型（SSM）引入实时目标检测，融合YOLO架构优势，实现“又快又准”。其通过ODMamba骨干网络解决自注意力二次复杂度问题，无需预训练；设计RG块增强局部细节建模，提升定位精度；结合多尺度融合策略，在COCO上小模型达1.5毫秒推理、mAP提升7.5%，兼顾高效与性能。

前言

本文介绍Mamba YOLO，为图片物体识别提供了“又快又准”的新方案。传统CNN架构运行快但难以捕捉远距离关联物体，Transformer架构精度高但计算量呈平方级增长，而SSM虽计算量为线性级且能抓全局关联，但用于图片识别时细节定位不准。为此，Mamba YOLO做了三项关键优化：引入ODMamba骨干网络，解决自注意力的二次复杂度问题，且无需预训练；设计ODMamba宏观结构确定最佳阶段比例和缩放大小；采用多分支结构的RG块建模通道维度，解决SSM在序列建模中的不足。在COCO数据集测试中，其小版本推理时间达1.5毫秒，mAP提高7.5%。

文章目录： YOLOv11改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

摘要

在深度学习技术的快速发展推动下，YOLO系列为实时目标检测器设立了新的基准。此外，基于Transformer的结构已成为该领域最强大的解决方案，大大扩展了模型的感受野并实现了显著的性能提升。然而，这种改进是有代价的，因为自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题，我们提出了一种简单而有效的基线方法，称为Mamba YOLO。我们的贡献如下：

1) 我们提出在ODMamba骨干网络中引入状态空间模型(SSM)，以线性复杂度解决自注意力的二次复杂度问题。与其他基于Transformer和SSM的方法不同，ODMamba易于训练，不需要预训练。

2) 针对实时性要求，我们设计了ODMamba的宏观结构，确定了最佳阶段比例和缩放大小。

3) 我们设计了采用多分支结构的RG块来建模通道维度，这解决了SSM在序列建模中可能存在的限制，如感受野不足和图像定位能力弱等问题。这种设计更准确且显著地捕捉了局部图像依赖关系。

在公开的COCO基准数据集上进行的广泛实验表明，与先前的方法相比，Mamba YOLO实现了最先进的性能。具体来说，Mamba YOLO的微型版本在单个4090 GPU上实现了1.5毫秒的推理时间，mAP提高了7.5%。PyTorch代码可在以下链接获取：https://github.com/HZAIZJNU/Mamba-YOLO

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

Mamba YOLO，简单说就是给“识别图片里物体”的技术搞了个“又快又准”的新方案，解决了之前同类模型的痛点。

1. 为啥要搞这个新模型？

之前做“图片物体识别”（比如识别照片里的车、人、动物）的模型有两个大问题，有点“鱼和熊掌不可兼得”：

一类是老款CNN架构（比如早期YOLO）：跑起来快，但只能关注图片局部，对“远距离关联的物体”（比如左上角和右下角的两只猫）捕捉不好，容易漏判或误判；
另一类是Transformer架构：能看清全局关联，精度高，但计算量是“平方级”的——图片越大、内容越复杂，计算量就暴涨，跑起来特别慢，没法满足“实时识别”（比如监控抓拍、自动驾驶）的需求。

后来出现了一种叫“SSM（状态空间模型）”的技术（比如Mamba架构），计算量是“线性级”的（图片变大，计算量稳步增加，不暴涨），还能抓全局关联，但它原本是用来处理文字的，直接套在图片识别上就“水土不服”——对图片的细节定位不准，也不会利用图片的多通道信息。

所以研究者就想：把SSM和YOLO结合，搞个“取长补短”的新模型，既快又准。

2. 新模型厉害在哪？（3个核心设计）

为了让SSM适配图片识别，研究者做了3个关键优化，相当于给模型“量身定制”了装备：

装备1：ODMamba骨干网络：把SSM改成了适合图片检测的结构，不用像Transformer那样先在超大数据集上“预热训练”（省了很多时间和资源），计算量还是线性的，解决了“慢”的问题；
装备2：RG Block（残差门控模块）：SSM擅长看全局，但看不清局部细节（比如物体的边角、纹理），这个模块就像“双摄像头”——一个分支抓全局特征，一个分支抓局部细节，还能通过“筛选机制”留下有用信息，让物体定位更准；
装备3：Vision Clue Merge（视觉线索融合）：之前的模型缩小图片尺寸时，容易丢很多关键细节（比如小物体的轮廓），这个设计能在缩小图片的同时，保住更多视觉信息，帮模型更好地识别物体。

另外还做了个贴心设计：搞了“小（Tiny）、中（Base）、大（Large）”三个版本——手机端用小版本（省电快），服务器端用大版本（精度高），适配不同场景。

3. 实际测试效果咋样？（真·又快又准）

在公开的COCO数据集（相当于图片识别的“高考”）上测试，结果很亮眼：

小版本（Mamba YOLO-T）：在单块4090显卡上，1.5毫秒就能处理一张图（比眨眼睛快多了），精度比同级别其他模型高7.5%左右，而且需要的参数少了近一半（更轻量化）；
中版本（Mamba YOLO-B）：和同参数的模型比，精度高3.7%，跑起来还快1.8毫秒；
大版本（Mamba YOLO-L）：和当前最顶尖的模型比，精度差不多甚至更高，但参数更少、跑起来更快，而且图片越大，优势越明显（其他模型图片变大后会变慢，它还是稳步高效）。

更厉害的是，在复杂场景下（比如物体重叠多、背景乱、有遮挡），它也能准确识别，比其他模型表现更稳。

4. 总结一下

Mamba YOLO是第一个把Mamba（SSM架构）用到“实时物体识别”的模型，核心就是“让文字领域的高效技术适配图片任务”。它不用复杂的预热训练，还能灵活适配不同设备，既解决了老模型“慢”或“不准”的问题，又填补了SSM在图片检测上的空白，给监控、自动驾驶、手机拍照识别等需要“又快又准”的场景，提供了一个更好的选择。

YOLOv11 改进 - 主干网络| 集成Mamba-YOLO（AAAI 2025），Mamba-YOLOv11-T 替换骨干，破解全局依赖建模难题，实现高效实时检测

前言

介绍

摘要

文章链接

基本原理

1. 为啥要搞这个新模型？

2. 新模型厉害在哪？（3个核心设计）

3. 实际测试效果咋样？（真·又快又准）

4. 总结一下

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

YOLOv11 改进 - 主干网络| 集成Mamba-YOLO（AAAI 2025），Mamba-YOLOv11-T 替换骨干，破解全局依赖建模难题，实现高效实时检测

前言

介绍

摘要

文章链接

基本原理

1. 为啥要搞这个新模型？

2. 新模型厉害在哪？（3个核心设计）

3. 实际测试效果咋样？（真·又快又准）

4. 总结一下

热门文章

最新文章

相关电子书