一、本文介绍
本文记录的是利用ASF-YOLO
提出的颈部结构优化YOLOv11的目标检测网络模型。将YOLOv11
的颈部网络改进成ASF-YOLO
的结构,==使模型能够有效的融合多尺度特征,捕获小目标精细信息,并根据注意力机制关注小目标相关特征,显著提高模型精度。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、ASF-YOLO介绍
ASF-YOLO
是一种基于YOLO的新颖框架,结合了空间和尺度特征以实现准确和快速的分割。其中,注意力尺度序列融合模块的设计包含以下几个关键方面:
2.1 出发点
- 解决小目标分割挑战:细胞实例分割因细胞的小、密集、重叠以及边界模糊等特点,对分割精度要求高。传统基于CNN的方法及一些现有架构在处理此类小目标分割时存在不足,需要一种能更好融合多尺度特征并关注小目标相关信息的方法。
- 优化YOLO架构:尽管YOLO系列在实时实例分割中具有优势,但对于医学图像中的小目标(如细胞)分割,其架构可进一步优化。通过设计注意尺度序列融合模块,提升模型对不同尺度小目标的处理能力和分割性能。
2.2 原理
2.2.1 多尺度特征融合
- SSFF模块:通过对不同尺度的特征图(P3、P4、P5)进行归一化、上采样和堆叠,然后利用3D卷积将多尺度特征组合起来,从而能够在尺度空间表示中有效处理不同大小、方向和宽高比的目标,增强了模型对小目标尺度变化的鲁棒性。
- TFE模块:将大、中、小三种不同尺寸的特征图在空间维度上拼接,以捕获不同尺度下小目标的精细空间信息,克服了
FPN
在YOLOv5中无法充分利用金字塔特征图相关性的局限。2.2.2 注意力机制
- CPAM模块:整合
SSFF
和TFE
模块的特征信息,通过通道注意力网络和位置注意力网络,分别捕获与小目标相关的有信息通道和细化空间定位,使模型能够自适应地调整对不同尺度小目标相关通道和空间位置的关注,从而提高检测和分割精度。
2.3 结构
2.3.1 SSFF模块结构
- 首先对P4和P5特征层进行$1×1$卷积,将通道数变为256,再使用最近邻插值法调整其大小与P3层相同。
- 然后使用unsqueeze方法增加特征层维度,从3D张量变为4D张量,并沿深度维度将4D特征图拼接形成3D特征图。
- 最后使用3D卷积、3D批归一化和SiLU激活函数完成尺度序列特征提取。
2.3.2 TFE模块结构
- 对于大尺寸特征图(Large),经卷积模块处理后调整通道数为1C,然后采用最大池化+平均池化的混合结构进行下采样。
- 对于小尺寸特征图(Small),卷积模块调整通道数后使用最近邻插值法进行上采样。
- 最后将大、中、小三种尺寸相同的特征图在通道维度上拼接输出。
2.3.3 CPAM模块结构
- 包含通道注意力网络和位置注意力网络。通道注意力网络接收TFE模块输出的特征图,采用无维度缩减的注意力机制,通过考虑每个通道及其k最近邻来捕获非线性跨通道交互。
- 位置注意力网络接收通道注意力机制输出与SSFF模块输出叠加后的特征图,通过在水平和垂直轴上进行池化、卷积、分裂等操作,提取每个细胞的关键位置信息。
2.4 优势
- 提高分割精度:通过
SSFF模块
有效融合多尺度特征,TFE模块
捕获小目标精细信息,以及CPAM模块
的注意力机制关注小目标相关特征,显著提高了细胞实例分割的精度,在DSB2018和BCC数据集上均取得了优于其他先进方法的结果。 - 增强模型鲁棒性:
SSFF模块
对多尺度特征的融合方式使模型对不同条件下细胞图像中小目标的尺度变化具有更强的鲁棒性。 - 平衡精度与速度:在实现高精度分割的同时,保持了较快的推理速度,如在DSB2018数据集上达到了47.3 FPS的推理速度,满足实时处理的需求。
论文:https://arxiv.org/pdf/2312.06458
源码:https://github.com/mkang315/ASF-YOLO
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: