SPMamba-YOLO:多尺度增强+全局建模,水下目标检测精度飙升4.9%!

简介: 本文提出SPMamba-YOLO水下目标检测模型:创新融合SPPELAN(增强多尺度特征与感受野)、PSA注意力(抑制背景、提升小目标判别)及Mamba状态空间模块(建模长程依赖),在URPC2022上mAP@0.5达82.5%,超越YOLOv8n 4.9%。

本文核心贡献如下:

  • 提出SPPELAN模块:融合空间金字塔池化与高效层聚合,增强多尺度特征表示,扩大感受野,有效应对水下目标尺度剧变。
  • 集成PSA注意力机制:通过多分支多尺度通道注意力,强化目标区域特征,抑制复杂水下背景干扰,提升小目标判别能力。
  • 引入Mamba状态空间模型:利用其选择性扫描机制高效捕获长程依赖与全局上下文,增强在光照不均、低对比度等恶劣条件下的检测鲁棒性。
  • 性能显著提升:在URPC2022数据集上,mAP@0.5达82.5%,超越YOLOv8n基线4.9%,尤其对小型密集目标检测效果优异。

其中,第1,2,3点创新点均在本人的YOLO魔术师都有实现。


image.gif

博主简介

image.gif

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。


💡 未来方向与使命

秉持 “让每一行代码都有温度” 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。


0.原理介绍

image.gif

论文:https://arxiv.org/pdf/2602.22674

摘要:水下目标检测是一个关键但极具挑战性的研究问题,其原因在于严重的光衰减、色彩失真、背景杂波以及水下目标的小尺度特性。为应对这些挑战,我们提出了SPMamba-YOLO,一种新颖的水下目标检测网络,它将多尺度特征增强与全局上下文建模相结合。具体来说,引入了空间金字塔池化增强层聚合网络模块,以强化多尺度特征聚合并扩展感受野;同时,金字塔分割注意力机制通过强调信息区域和抑制背景干扰来增强特征判别力。此外,还集成了一个基于Mamba的状态空间建模模块,以高效捕获长程依赖关系和全局上下文信息,从而提高在复杂水下环境中的检测鲁棒性。在URPC2022数据集上的大量实验表明,SPMamba-YOLO在mAP@0.5指标上比YOLOv8n基线高出4.9% 以上,特别是对于小型和密集分布的水下目标,同时在检测精度和计算成本之间保持了良好的平衡。

关键词:水下目标检测,小目标检测,多尺度特征融合,注意力机制,状态空间模型,YOLO

1. 引言

水下图像目标检测在众多实际应用中扮演着至关重要的角色,包括海洋生物研究、水下管道检测、海底资源勘探和珊瑚礁监测。然而,水下图像表现出显著区别于陆地图像的特性,给目标检测带来了严峻挑战。如图1所示,水下机器人视觉系统在目标检测任务中面临着多重相互交织的挑战。具体而言,水下环境中与波长相关的光吸收和散射会导致严重的色彩失真、低对比度、目标边界模糊以及强烈的背景干扰,这些因素共同掩盖了具有判别性的视觉线索,并显著降低了检测的可靠性,尤其是对于小型和密集分布的目标。在此类恶劣条件下,准确检测海洋生物变得尤为困难,尤其是当单个场景内同时存在多个目标时。因此,在如此严重退化的水下条件下,传统的目标检测模型往往难以同时保持精确定位和鲁棒分类。因此,提高水下目标检测的准确性仍然是一项关键且具有挑战性的任务。传统的人工检测和水声成像方法通常操作复杂度高且鲁棒性有限,阻碍了目标的准确检测。随着人工智能的快速发展,基于深度学习的目标检测算法已被广泛应用于各个领域。与传统方法相比,深度学习算法展现出更优越的特征提取能力,已成为目标检测研究和应用的主流方法。

image.gif

现有的基于深度学习的目标检测方法大致可分为两类:两阶段和单阶段检测算法。两阶段检测算法将检测过程分解为两个连续的阶段。第一阶段生成一组候选区域,第二阶段则对这些候选框进行分类和定位。代表性的两阶段检测器包括R-CNN家族。这些方法通常以较高的计算开销为代价实现高检测精度,因此限制了它们在实时水下检测场景中的应用。相比之下,单阶段检测器取消了区域提议阶段,直接在密集特征图上进行分类和定位,从而实现更快的推理速度。代表性的单阶段检测器包括YOLO系列、SSD和RetinaNet。因此,这些方法在实时目标检测任务中得到了广泛采用。

基于深度学习的目标检测方法已广泛应用于水下图像。图1直观地展示了这些代表性挑战。为了应对这些挑战,本文提出了一种新颖的水下目标检测网络,命名为SPMamba-YOLO,它将多尺度特征增强与全局上下文建模相结合。首先,引入了SPPELAN模块以加强多尺度特征聚合并扩大感受野,从而更有效地表示尺度变化的水下目标。其次,采用了PSA注意力机制,通过强调信息区域同时抑制背景干扰来增强特征判别力。第三,集成了一个基于Mamba的状态空间建模模块,以捕获长程依赖关系和全局上下文信息,从而提高在复杂水下环境中的检测鲁棒性。

本工作的主要贡献可总结如下:

  • SPPELAN模块引入检测框架,以增强多尺度特征聚合,并提高对不同尺度水下目标的表示能力。
  • 集成了PSA注意力机制,通过在水下场景中突出目标区域同时抑制背景噪声来改善特征判别力。
  • 集成了基于Mamba的状态空间建模模块,以有效捕获长程依赖关系和全局上下文信息,从而提高在复杂水下环境中的检测鲁棒性。
  • 在URPC2022数据集上进行的大量实验表明,所提出的SPMamba-YOLO在保持有竞争力的计算效率的同时,实现了优于最先进方法的检测性能。

本文的其余部分组织如下。第2节回顾了水下目标检测的相关工作。第3节描述了所提出的SPMamba-YOLO网络的整体架构和详细设计。第4节介绍了实验设置和结果,包括对比和消融研究。最后,第5节对本文进行了总结。

2. 相关工作

水下环境中的目标检测已成为海洋工程和计算机视觉领域的一个突出研究课题,引起了研究界的广泛关注。与陆地成像不同,水下检测面临着独特的挑战,包括视觉退化、光照不均匀以及小型生物目标的普遍存在。在众多研究方向中,水下目标检测、小目标检测和特征增强技术尤其受到关注。以下各节简要回顾了与这些主题相关的近期研究。

2.1. 水下目标检测

由于复杂的水生环境具有光吸收、散射和低对比度的特点,水下目标检测是一项具有挑战性的任务。为应对这些挑战,研究者提出了众多基于深度学习的解决方案。Xiao等人开发了一个定制的多尺度特征融合框架,该框架增强了跨尺度特征交互,以提高对小而模糊的水下目标的识别能力。Sun等人提出了一种水下小目标检测方法,该方法将YOLOX与MobileViT和双重坐标注意力相结合,从而增强了全局-局部特征表示,并提高了在复杂环境中的检测精度。Liu等人提出了TC-YOLO,它将基于Transformer的自注意力和坐标注意力集成到基于YOLOv5的架构中,以提高对水下目标的检测鲁棒性和准确性。Chen等人提出了SWIPENET,这是一种针对噪声水下场景的检测框架,它采用样本加权损失来强调训练中的困难或代表性不足的样本,从而提高了在杂乱水生环境中的鲁棒性。

为了改进特征提取,Ge等人提出了YOLOv5s-CA,它将坐标注意力嵌入到YOLOv5s中,以增强在水下场景中的判别性特征学习。Chen等人提出了一种基于YOLOv7的特征融合增强方法,该方法引入了一个三重注意力模块和改进的多尺度融合策略,以在保持计算效率的同时增强判别性特征表示。Fan等人基于SSD开发了一种双细化水下检测网络,通过引入感受野增强和预测细化来更好地捕获多尺度上下文特征。Ding等人通过结合注意力机制和图像增强模块,为水下图像开发了一种轻量级增强型YOLOv8n网络,以提高在低光照和浑浊条件下的检测性能。Dai等人引入了一种边缘引导表示学习网络,通过边缘线索和扩大的感受野来增强对小或低对比度水下目标的特征判别性。最后,Chen等人开发了一种混合Transformer检测模型,该模型利用全局上下文信息来增强水下环境中的小目标检测。尽管取得了这些进展,但大多数现有的水下检测方法主要依赖于基于卷积的注意力机制或Transformer风格的全局建模,它们要么缺乏高效的长程依赖建模,要么带来大量的计算开销,限制了它们在实时或资源受限的水下检测场景中的适用性。

2.2. 小目标检测

由于小目标相关的有限像素信息和低信噪比,小目标检测仍然是计算机视觉中最具挑战性的问题之一。为减轻深度网络中的信息损失,Lin等人优化了特征金字塔网络,以增强浅层特征层的语义表示。Chen等人引入了增强语义特征金字塔网络,通过将高层语义线索与低层上下文细节相结合来加强多尺度特征融合,从而提高了小对象的表示质量。Du等人提出了一种跨层特征金字塔变换器,通过注意力机制实现跨特征层的直接语义交互,从而缩小语义差距并增强小目标检测的判别能力。Li等人探索了使用生成对抗网络对小感兴趣区域进行超分辨率重建,从而从模糊块中恢复结构细节。在基于锚框的方法中,Xu等人设计了一种基于密度的空间聚类策略,以优化密集分布小目标的锚框生成。Cui等人开发了一个上下文感知块来捕获周围的上下文线索,使模型即使在内部特征不清晰时也能推断出小目标。Yang等人提出了R3Det,它采用特征细化模块来解决旋转敏感检测任务中边界框与特征之间的错位问题。此外,Wang等人引入了归一化Wasserstein距离作为一种新颖的评估指标和损失函数,它对极小目标的定位比传统IoU更敏感。Quan等人提出了一种基于注意力机制的特征增强小目标检测方法,该方法加强多层特征表示,以提高对复杂背景下弱小目标的判别能力。最后,Dai等人提出了一个动态头框架,该框架通过跨尺度、空间和任务维度的注意力机制统一检测头。然而,大多数小目标检测方法以增加模型复杂度或高分辨率特征处理为代价来获得性能提升,这对在资源受限平台上进行实时部署构成了重大挑战。

3. 方法

基于YOLOv8,我们提出了一种新颖的面向小尺度目标的水下目标检测方法,命名为SPMamba-YOLO。首先,引入了SPPELAN模块以加强多尺度特征聚合和上下文表示。通过将多级空间金字塔池化与高效特征聚合相结合,该模块扩大了感受野,从而使网络能够更好地捕获尺度变化的目标信息,并增强特征在复杂场景中的丰富性和鲁棒性。其次,引入了PSA机制,以突出显著目标区域同时抑制无关背景信息,从而提高对小目标的敏感性并改善检测精度。最后,将基于Mamba的状态空间建模模块集成到YOLO中,利用其选择性扫描机制来增强多维特征感知,并提高在动态环境中的检测性能。SPMamba-YOLO的整体架构如图2所示。

image.gif

3.1. 状态空间模型

由于其在建模长程依赖和表征动态系统方面的强大能力,结构化状态空间模型近年来受到越来越多的关注。虽然概念上与循环神经网络相关,但SSM的不同之处在于隐藏状态更新中的非线性变换被移除。实质上,SSM可以公式化为一个线性常微分方程组。

在深度学习中,信号通常是离散的,这需要将连续状态空间方程转换为离散形式。这一转换代表了从SSM到S4模型的关键步骤,即参数离散化。具体而言,该过程通过对输入信号应用零阶保持来实现。

离散化后,结构化SSM可以用离散形式表示。

Mamba模型通过引入选择性扫描机制扩展了传统的结构化SSM,这使得状态空间参数A-C具有输入自适应性。因此,状态转移矩阵A可以在离散化过程中进行动态调制。这种设计对于水下小目标检测尤为有利,因为在这些场景中成像条件表现出显著的变异性和复杂性。通过实现多方向信息扫描,Mamba架构实现了对输入数据的全面上下文感知,同时捕获局部判别性特征和全局语义依赖。这种能力使模型能够自适应地重新校准其参数矩阵,从而增强在动态水下场景中的表示灵活性和鲁棒性。

3.2. 整体架构与基于SSM的特征提取

本节描述了所提出的SPMamba-YOLO架构的详细骨干和颈部设计,特别关注基于SSM的特征提取模块的集成。所提出的目标检测框架由两个主要部分组成:骨干网络和颈部网络。骨干网络集成了一个Simple Stem和多个下采样块,以执行渐进式特征提取和空间分辨率降低。首先,骨干网络应用Stem模块对输入图像进行下采样,生成分辨率为H/4 × W/4的二维特征图。随后,每个骨干阶段由一个ODSSBlock和一个Vision Clue Merge模块组成,以进一步细化特征表示并执行下采样。在颈部,整体设计遵循PAFPN的原则,其中传统的C2f模块被替换为ODSSBlock,以促进更丰富、更高效的梯度信息流。在此设计中,卷积层仅负责下采样,确保有效的多尺度特征聚合和跨特征层改进的语义一致性。

image.gif

在本工作中,我们引入近期基于Mamba的视觉模型中的Simple Stem结构作为骨干网络的初始阶段。Simple Stem的详细架构如图3所示。传统的Vision Transformer通常采用一种将输入图像划分为不重叠块的分块嵌入策略。然而,像EfficientFormerV2这样的研究表明,这种粗粒度的划分可能会限制优化能力并限制模型的表示能力。为平衡效率和精度,Simple Stem用两个连续的卷积层替换了分块嵌入,每个卷积层具有3的核大小和2的步长。这种设计实现了渐进式下采样,同时保留了局部空间连续性,使网络能够在早期特征提取阶段保留更多细粒度的纹理和边缘信息。

虽然传统的CNN和ViT架构通常采用步长卷积进行下采样,但这种操作可能会引入过多的空间混合,从而削弱SS2D的选择性建模能力。为解决此问题,我们提出了一个Vision Clue Merge模块,该模块通过特征重排和轻量级通道投影来执行下采样。具体来说,输入的二维特征图首先根据2×2采样相位被分割成四个交错子特征图,并在通道维度上拼接。此操作将空间分辨率降低到H/2 × W/2,同时将通道维度从C扩展到4C。随后,应用1×1逐点卷积将拼接后的特征投影到目标维度,然后进行批归一化和SiLU激活,以进行特征集成和非线性变换。如图4所示,所提出的VCM模块保留了上一阶段由SS2D选择性激活的视觉线索,从而在下采样过程中保持更丰富的上下文信息。与步长为2的标准3×3卷积相比,VCM能更好地保留判别性特征响应,并提高跨特征层的语义一致性。

image.gif

如图5所示,ODSSBlock模块旨在实现网络中全面而高效的特征处理。它以分层方式集成SS2D、LS和RG子模块,以共同增强局部和全局特征表示。具体来说,SS2D结构通过线性变换、归一化、扫描操作、激活函数和深度卷积处理输入特征,从而为更高级别的特征提取提供有效基础。LS模块专注于使用深度可分离卷积捕获细粒度的局部空间细节,并通过批归一化和非线性激活来增强对局部变化的敏感性。最后,RG模块通过在一个残差门控机制中结合常规卷积和深度卷积来细化和融合多级特征,该机制自适应地调节特征流并保留基本信息。通过这些组件的协同交互,ODSSBlock平衡了全局上下文感知与局部细节保留,增强了跨层的梯度流,并提高了整体表示能力。

image.gif

3.3. PSA注意力模块

为有效捕获多尺度上下文信息并增强特征表示,引入了PSA模块。如图6所示,PSA模块将多尺度特征提取和通道级注意力建模集成到一个统一的框架中,包括SPC、基于SEWeight的注意力提取以及注意力引导的特征重校准。

image.gif

给定一个输入特征图,首先应用全局平均池化来聚合空间信息并生成紧凑的通道描述符。然后,通道描述符通过两个带有ReLU和Sigmoid激活的全连接层,以学习通道级注意力权重。

为捕获通道级多尺度语义,SPC机制沿通道维度将输入特征图分割成S个子特征图。每个子特征图随后使用具有不同感受野的卷积核进行处理,以提取多尺度空间特征。得到的多尺度特征图随后在通道维度上拼接,形成一个统一的表示。

提取的通道级注意力响应进一步通过Softmax操作进行归一化,以获得归一化的多尺度注意力权重,然后通过逐元素乘法将其应用于相应的特征图。通过这种多尺度特征提取与基于注意力的重校准的联合优化,PSA模块为下游检测任务生成了更具判别性和鲁棒性的细化特征表示。

3.4. SPPELAN模块

为进一步增强多尺度空间特征聚合,同时保持计算效率,在所提出的SPMamba-YOLO架构中引入了SPPELAN模块,如图7所示。

image.gif

给定一个输入特征图,SPPELAN首先应用一个1×1卷积将输入投影到一个紧凑的特征空间。随后,以级联方式采用一系列最大池化操作来逐步扩大感受野。此池化过程可以公式化表示,其中N表示池化阶段的数目。

多阶段池化后,得到的特征图在通道维度上拼接,形成一个统一的多尺度表示。最后,应用一个1×1卷积来融合拼接后的特征,并生成输出特征图。通过联合利用渐进式感受野扩展和高效特征聚合,SPPELAN提高了网络处理具有大尺度变化目标的能力,这对于检测小型和密集分布的水下目标尤其有利。

4. 实验

SPMamba-YOLO网络专为水下目标检测任务设计,特别侧重于识别小型海洋生物,如海参、海胆、海星和扇贝。为评估所提方法的检测性能和计算效率,在公开的URPC2022水下图像数据集上进行了一系列实验。

4.1. 数据集

为评估所提出的SPMamba-YOLO网络在水下目标检测任务中的性能,本研究采用公开的URPC2022数据集。URPC2022是一个为智能水下机器人视觉和目标检测设计的大规模图像数据集,旨在模拟复杂多变的真实海洋环境。该数据集包含四类主要水下目标:海参、海胆、海星和扇贝。所有图像均采集自真实水下场景,并表现出光照不均、颜色衰减、光散射和水体浑浊等挑战,这些因素显著增加了检测难度。四类水下目标的类别实例分布总结于表1。

image.gif

总共使用9000张图像进行训练和验证。为确保数据多样性和平衡性,数据集以0.83:0.17的比例随机划分为训练集和验证集,得到7470张训练图像和1530张验证图像。每张图像均按照官方URPC标注标准标注了精确的边界框和类别标签。图像分辨率范围从640×480到1920×1080,涵盖了不同的视角和目标尺度,反映了水下检测场景的多样性和复杂性。

4.2. 实现细节

所有实验均在Windows 11操作系统上进行,以评估所提出的目标检测模型的性能。硬件配置包括单个NVIDIA GeForce RTX 4070 GPU和AMD Ryzen 7-7435H处理器。实现基于PyTorch深度学习框架。

训练期间,输入图像尺寸统一设置为640×640像素。采用带动量的随机梯度下降优化器,初始学习率为0.01,动量为0.937,权重衰减为0.0005。批量大小设置为4,URPC2022数据集的总训练轮次设置为100。在实验结果表格中,除明确以兆字节报告的参数外,所有性能指标均以百分比形式报告。

4.3. 评估指标

为严格评估所提出的目标检测方法的检测性能,采用了几个广泛使用的性能指标,包括精确率、召回率和平均精度均值。精确率定义为正确预测的正样本数与预测的正样本总数之比,而召回率定义为正确预测的正样本数与真实正样本总数之比。基于真正例、假正例和假负例之间的关系,精确率和召回率可通过公式计算。

平均精度定义为精确率-召回率曲线下的面积,并按公式计算。平均精度均值通过对所有目标类别的AP值求平均获得。

4.4. 消融实验

表2展示了在YOLOv8n基线上进行的消融实验结果,以评估不同增强模块对水下目标检测的有效性。YOLOv8n基线在URPC2022数据集上实现了0.776的mAP@0.5。

image.gif

当单独评估每个组件时,引入PSA注意力机制将mAP@0.5提高到0.790,表明具有隐式空间意识的多尺度通道注意力在增强水下小目标的细粒度特征表示方面更有效。结合基于Mamba的模块带来了更显著的改进,实现了0.806的mAP@0.5,突显了在复杂水下环境中建模长程依赖和全局上下文信息的重要性。

在进一步的实验中,评估了模块的不同组合。Mamba和PSA的集成实现了0.804的mAP@0.5,而将Mamba与SPPELAN结合进一步将性能提高到0.807。当所有提出的组件联合集成时,完整的SPMamba-YOLO模型实现了最佳性能,mAP@0.5为0.825,比基线提高了4.9个百分点。这些结果表明,所提出的模块相互补充,共同促进了水下目标检测性能的提升。

此外,为进一步评估所提出的PSA模块的有效性,我们进行了对比实验,将不同的注意力机制集成到YOLOv8n基线中,包括GAM、ECA、CoordAtt和CBAM。所有注意力模块都插入在相同的网络位置,并且所有模型都在相同的实验设置下进行训练和评估,以确保公平比较。

如表3所示,不同的注意力机制在YOLOv8n基线上引入了不同程度的改进。基于通道的注意力模块仅产生边际增益,而CBAM通过联合建模通道和空间信息实现了中等程度的改进。尽管GAM和所提出的PSA达到了相当的mAP@0.5,但GAM带来了显著更高的计算开销。相比之下,PSA实现了更有利的精度-效率权衡,证明了其在突出水下弱小目标方面的有效性。

image.gif

此外,我们进一步研究了在不同特征层级插入PSA模块的效果。具体来说,PSA分别插入在P3、P4和P5层级,并在表4中报告了相应结果。可以观察到,在更深层的特征层级插入PSA通常能带来更好的检测性能。在所有配置中,PSA插入P5层级取得了最佳整体性能,mAP@0.5为0.790,而未使用PSA的基线为0.776。这种改进对于海胆和海星等类别尤为明显,这些目标通常以相对较小的尺度出现且背景复杂。这些结果表明,将PSA集成到更高层级的特征图中,对于增强水下目标检测中的语义表示和抑制背景干扰更为有效。

image.gif

为进一步比较检测能力,图8展示了SPMamba-YOLO和YOLOv8n基线在URPC2022数据集上的精确率-召回率曲线。如图所示,SPMamba-YOLO曲线所围成的面积始终大于YOLOv8n,表明在不同召回率水平下均具有更优的检测性能。与基线相比,SPMamba-YOLO表现出更高的精确率,尤其是在中高召回率区域,表明在中高召回率条件下鲁棒性增强,特别是对于小型和密集分布的水下目标。此外,按类别分析显示,在四类目标中,所提方法对海参和扇贝的PR曲线更接近右上角。这表明SPMamba-YOLO在这两个类别上实现了更高的精确率,同时保持了相对较高的召回率,突显了其处理小尺度和可变形水下目标的有效性。这些结果进一步验证了所提出的架构改进在检测精度和可靠性方面的有效性。

image.gif

相比之下,所提出的集成了SPPELAN、PSA和Mamba的SPMamba-YOLO在这些区域产生了与目标更一致、空间上更集中的激活。增强的多尺度聚合、多尺度通道注意力和全局上下文建模的协同效应有效缓解了漏检和误报。

4.5. 模型可视化

图9展示了代表性水下场景的定性Grad-CAM可视化结果,这些示例根据引言中讨论的四类典型水下挑战进行分组,每个挑战包含两个案例。具体而言,第一行和第二行对应颜色失真严重的场景,由于波长相关的光衰减,目标外观显著退化。第三行和第四行展示了密集分布的目标场景,由于目标拥挤,YOLOv8n基线表现出分散且模糊的激活响应。第五行和第六行显示了低对比度场景,目标边界模糊,难以与背景区分。最后两行描绘了由水下散射、浊度和运动模糊引起的噪声和模糊场景。可以观察到,与YOLOv8n相比,SPMamba-YOLO在所有场景下始终在目标区域产生更集中、更具判别性的激活响应,证明了其在多样化水下条件下改进的鲁棒性。

image.gif

为更深入地了解所提出的SPMamba-YOLO框架的内部特征表示,我们可视化了从不同网络层提取的特征图,如图10所示。选择两张代表性水下图像作为输入,并展示了来自第0、3和5层的特征图,以说明层级特征学习过程。随着网络深度的增加,特征图逐渐从低级的纹理和边缘信息演变为具有更清晰目标定位的高级语义表示。值得注意的是,所提出的模型在前景区域产生了更具判别性和更集中的激活响应,同时有效抑制了背景噪声和无关模式。这一观察结果表明,SPMamba-YOLO能够同时捕获细粒度的局部细节和全局上下文信息,这有助于在复杂和挑战性环境中进行鲁棒的水下目标检测。这些发现进一步验证了所提出的多尺度特征增强和全局上下文建模策略的有效性。

image.gif

4.6. 与其他水下模型的比较

为进一步评估所提出的SPMamba-YOLO的性能,与几个代表性的目标检测模型进行了全面比较,包括Faster R-CNN、SSD、RT-DETR和YOLOv8n基线。所有模型均在相同的训练和测试协议下在URPC2022数据集上进行评估,以确保公平和无偏的比较。

image.gif

表5报告了精确率、召回率、mAP@0.5、GFLOPs、参数量和模型大小等方面的定量结果。可以观察到,像Faster R-CNN和SSD这样的传统检测器表现出相对较高的计算复杂度和较大的模型尺寸,而它们在挑战性水下条件下的检测性能仍然有限。

与YOLOv8n基线相比,SPMamba-YOLO在检测精度上实现了明显提升,在所有比较方法中取得了最高的mAP@0.5。同时,SPMamba-YOLO保持了有竞争力的参数量和计算成本,表明其在检测精度和效率之间实现了有利的权衡。特别是,改进的精确率和召回率表明该模型在处理小型、模糊和低对比度水下目标方面更有效。这些结果验证了SPMamba-YOLO在水下目标检测任务中的有效性和鲁棒性。

4.7. 与YOLO系列模型的比较

为进一步分析SPMamba-YOLO在YOLO家族中的优势,与几个代表性的基于YOLO的模型进行了详细比较,包括YOLOv3-tiny、YOLOv5、YOLOv7和YOLOv8。所有模型均在相同的实验设置下在URPC2022数据集上进行评估,以确保一致性。

image.gif

比较结果总结在表6中,其中同时考虑了检测精度和模型效率。如表所示,早期的YOLO版本,如YOLOv3-tiny和YOLOv5,尽管架构轻量,但实现了相对较低的mAP@0.5。虽然YOLOv7提高了检测精度,但它带来了显著更高的计算成本和模型大小。

相比之下,YOLOv8n基线在精度和效率之间提供了有利的平衡,但在复杂水下场景下召回率仍然存在局限性。通过集成基于Mamba的全局建模和多尺度特征增强,SPMamba-YOLO在mAP@0.5和mAP@0.5:0.95方面优于所有比较的YOLO变体,同时保持了适中的GFLOPs、参数量和模型大小。

这些结果表明,SPMamba-YOLO显著提高了检测精度,同时在精度和计算成本之间保持了合理的权衡,证明了其在实时水下目标检测场景中的有效性。

5. 结论

在这项工作中,我们提出了SPMamba-YOLO,一个将多尺度特征增强与全局上下文建模相结合的水下目标检测框架。通过联合利用SPPELAN进行感受野扩展、PSA进行判别性特征增强,以及基于Mamba的状态空间建模模块进行高效长程依赖建模,所提出的方法在URPC2022数据集上实现了显著的性能提升,特别是对于小型和密集分布的水下目标,同时在检测精度和计算成本之间保持了良好的平衡。

然而,由于集成了多个增强模块,所提出的框架引入了额外的计算复杂度,这导致了模型参数和推理成本的增加。在未来的工作中,将探索更高效的特征融合策略以减少冗余,同时保持检测精度。此外,未来的研究将侧重于在更多水下数据集上验证所提出的方法,以进一步评估其在不同场景下的泛化能力。

目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 数据可视化
基于YOLO11的交通违规检测系统(Python源码+数据集+Pyside6界面)
本文基于YOLO11构建交通违规检测系统,涵盖23类目标(车辆、信号灯、标志等),详解数据制作(ROI裁剪优化尺度)、模型改进(C3k2、C2PSA、轻量Detect头)及训练可视化全过程,并集成PySide6实现GUI应用,助力工业落地。
212 12
|
8天前
|
机器学习/深度学习 编解码 运维
红外小目标检测新突破!异常感知检测头AA-YOLO:节俭又鲁棒,小样本也能精准识别
本文提出AA-YOLO:首个将统计异常检验嵌入YOLO检测头的方法,通过指数分布建模背景,显式识别小目标为统计异常,显著降低误报率;仅需10%数据即达90%全量性能,参数比EFLNet少6倍,轻量高效;在噪声、跨域、跨模态下鲁棒性强,且可无缝适配各类YOLO及实例分割网络。
200 4
|
12天前
|
人工智能 缓存 自然语言处理
大模型应用:大模型的词表扩展:中文生僻字、专业术语的词嵌入适配方案.42
本文详解大模型中文词表扩展技术,聚焦生僻字(如“𪚥”“龘”)与专业术语(如“LoRA微调”“CAR-T细胞疗法”)的识别难题。通过词表扩容、词嵌入适配与轻量级增量训练,无需重训模型,即可提升语义理解精度,支持古籍、医疗、AI等垂直场景落地。
118 10
|
8天前
|
Linux API 开发工具
新手零踩坑:OpenClaw(Clawdbot)部署全指南(阿里云轻量+Mac/Linux/Windows)+免费百炼API+Skills集成教程
OpenClaw(前身为Clawdbot、Moltbot)作为开源AI智能体接入框架,凭借零代码自动化、模块化技能扩展、多平台适配的核心特性,成为2026年新手入门AI自动化工具的首选。其核心价值在于无需复杂编程,仅通过自然语言指令,即可调用Clawhub技能市场的数千款技能,实现文档处理、网页抓取、任务自动化、团队协作等各类重复性工作,适配个人办公、轻量开发、调研分析等多种场景。
256 3
|
9天前
|
人工智能 弹性计算 安全
阿里云三步分钟级部署 OpenClaw:打造你的 7×24 小时 AI 助理!
阿里云OpenClaw是零代码AI助手部署方案:仅需3步,即可在轻量应用服务器上快速搭建专属智能助理,7×24小时在线,无缝接入企业微信、钉钉、飞书、QQ等主流办公IM,安全稳定、开箱即用!
160 8
|
9天前
|
弹性计算
阿里云学生服务器免费领取:2026年最新学生优惠政策,先领300元无门槛代金券
2026年阿里云学生专享:完成学信网认证,免费领300元无门槛代金券,覆盖ECS、轻量服务器等主流云产品;券有效期1年,可全额抵扣订单,轻松实现0元上云!
|
1月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
17655 87
|
8天前
|
人工智能 安全 算法
当赛博皇上给Ai设立三省六部
本文介绍一款创新开源系统,将中国古代“三省六部制”深度融入多智能体架构:以“太子”分拣需求、“中书”规划、“门下”审议、“六部”执行,实现AI团队协同处理复杂工程任务,兼具逻辑严谨性与文化巧思。
1034 1
当赛博皇上给Ai设立三省六部
|
7天前
|
机器学习/深度学习 数据采集 人工智能
南瓜叶片病害图像分类数据集(2000张图片已划分、已标注)| AI训练适用于目标检测任务
随着人工智能技术在农业领域的不断发展,利用计算机视觉进行植物病害识别已经成为智慧农业的重要研究方向。高质量的数据集是推动相关技术进步的重要基础。本南瓜叶片病害图像分类数据集提供了 2000 张高质量叶片图像,并涵盖 5 种典型病害类型,可广泛应用于图像分类模型训练、农业科研以及教学实践。
106 12
|
2月前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
67677 183
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API