一、本文介绍
本文记录的是利用直方图自注意力
优化YOLOv11
的目标检测方法研究。==在目标检测任务中,清晰准确的图像对于目标检测至关重要,本文创新方法通过恢复图像质量,可以减少因图像质量低导致的误检和漏检,实现有效涨点==。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、直方图自注意力介绍
2.1 设计出发点
- 解决现有Transformer方法的局限:现有的基于Transformer的方法在处理恶劣天气图像恢复时,为了提高内存利用效率,通常将自注意力操作限制在固定的空间范围或仅仅在通道维度上,这种限制阻碍了Transformer对长距离空间特征的捕捉能力,从而影响了图像恢复的性能。
- 利用天气退化特征:观察到天气引起的退化因素主要导致相似的遮挡和亮度变化,因此希望设计一种能够更好地处理这些特征的模块。
2.2 原理
2.2.1 动态范围直方图自注意力(DHSA)
- 动态范围卷积:传统卷积操作的感受野范围有限,主要关注局部信息,与自注意力机制的长距离依赖建模能力不匹配。通过在传统卷积操作之前对输入特征进行重新排序,将其分为两个分支,对第一个分支的特征进行水平和垂直排序,然后与第二个分支的特征连接,再通过可分离卷积。这样可以将高强度和低强度的像素组织成矩阵对角线上的规则模式,使卷积能够在动态范围内进行计算,从而部分聚焦于保留干净信息和分别恢复退化特征。
- 直方图自注意力机制:注意到天气引起的退化会导致相似的模式,不同强度的包含背景特征或天气退化的像素应给予不同程度的注意力。因此提出将空间元素分类到不同的bin中,并在bin内和bin间分配不同的注意力。
2.2.2 双尺度门控前馈(DGFF)模块
- 考虑到之前的方法在标准前馈网络中通常使用单范围或单尺度卷积来增强局部上下文,但忽略了动态分布的天气引起的退化之间的相关性。因此设计了DGFF模块,它在传输过程中集成了两个不同的多范围和多尺度深度卷积路径,通过不同的卷积操作和门控机制来增强对多尺度和多范围信息的提取能力。
2.3 结构
- 包含两个关键模块
- DHSA模块:由动态范围卷积和直方图自注意力机制组成。动态范围卷积对输入特征进行重新排序,直方图自注意力机制对重新排序后的特征进行处理,包括将特征分为Value特征和Query - Key对,对Value特征进行排序并根据其索引对Query - Key对进行排列,然后将特征重塑为两种类型(bin - wise直方图重塑和frequency - wise直方图重塑),分别通过两种重塑方式和后续的自注意力过程,最后将输出元素相乘得到最终输出。
- DGFF模块:输入张量首先经过点卷积操作增加通道维度,然后分为两个并行分支。在特征转换过程中,一个分支使用5×5深度卷积,另一个分支使用扩张的3×3深度卷积来增强多范围和多尺度信息的提取。第二个分支的输出经过激活后作为门控图作用于第一个分支,最后通过像素重排和逆重排操作以及点卷积得到输出并传递到下一个阶段。
2.4 优势
- 有效捕捉动态范围的特征:
DHSA模块
通过动态范围卷积和直方图自注意力机制,能够有效地捕捉天气引起的动态空间退化特征,实现对长距离空间特征的建模,克服了现有方法的局限性。 - 提取多尺度和多范围信息:
DGFF模块
通过集成两个不同的多范围和多尺度深度卷积路径,能够更好地提取图像中的多尺度和多范围信息,增强了对天气退化图像的恢复能力。 - 提高图像恢复性能:通过上述两个模块的协同作用,Histogram Transformer Block能够提高恶劣天气图像恢复的性能,在多个数据集上取得了较好的效果。
论文:https://arxiv.org/pdf/2407.10172
源码:https://github.com/sunshangquan/Histoformer三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: