一、本文介绍
本文记录的是利用H-RAMi
模块优化YOLOv11
的目标检测网络模型。H-RAMi
结合了对来自分层编码器阶段的多尺度注意力的处理能力和对语义信息的利用能力,有效地补偿了因下采样特征导致的像素级信息损失。本文将其应用到v11
中,并进行二次创新,使网络能够在处理具有复杂结构或丰富语义信息的图像时,提升对不同尺度和不同内容的图像区域的恢复能力。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、H-RAMi 介绍
2.1 设计出发点
- 许多证据表明层次化网络对图像恢复(IR)任务通常不太有效,因为IR的目标是逐个预测像素值(密集预测),而缩小特征图会丢失重要的像素级信息。然而,层次化结构有降低时间复杂度以及学习语义级和像素级特征表示的优点。为了弥补缺点并利用优点,设计了
H - RAMi
层。2.2 原理
H - RAMi
层通过对来自分层编码器阶段的注意力进行处理,补偿因下采样特征导致的像素级信息损失,并利用语义级信息。它将不同层次阶段的多尺度注意力进行混合,重新考虑在给定输入特征图中应关注的位置和程度。2.3 结构
- 如图c所示,
H - RAMi
接收来自分层阶段1
、2
、3
、4
中最后D - RAMiT
块在层归一化(LN)之前由MobiVari
合并的注意力。它首先将混合的二维注意力(输入)的分辨率上采样到$H×W$,然后将它们连接并由MobiVari
混合。
2.4 优势
- 提高图像恢复精度:从图可以看出,阶段4的输出(b)在细粒度区域产生相对不清晰的边缘,这是由于像素级信息不如非层次化网络丰富。而
H - RAMi
通过利用像素级和语义级信息,在(c)处重建了关注区域并产生更清晰的边界,使得重新关注的特征图(d)包含更明显的边界,从而提高图像恢复精度。
- 高效利用资源:
H - RAMi
在提高模型性能的同时,所需的额外操作和参数很少,分别最多只占总成本的3.01%和2.25%。
论文:https://arxiv.org/pdf/2305.11474
源码: https://github.com/rami0205/RAMiT
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: