YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务

简介: YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务

一、本文介绍

本文记录的是利用直方图自注意力优化YOLOv11的目标检测方法研究。==在目标检测任务中,清晰准确的图像对于目标检测至关重要,本文创新方法通过恢复图像质量,可以减少因图像质量低导致的误检和漏检,实现有效涨点==。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、直方图自注意力介绍

2.1 设计出发点

  • 解决现有Transformer方法的局限:现有的基于Transformer的方法在处理恶劣天气图像恢复时,为了提高内存利用效率,通常将自注意力操作限制在固定的空间范围或仅仅在通道维度上,这种限制阻碍了Transformer对长距离空间特征的捕捉能力,从而影响了图像恢复的性能。
  • 利用天气退化特征:观察到天气引起的退化因素主要导致相似的遮挡和亮度变化,因此希望设计一种能够更好地处理这些特征的模块。

2.2 原理

2.2.1 动态范围直方图自注意力(DHSA)

  • 动态范围卷积:传统卷积操作的感受野范围有限,主要关注局部信息,与自注意力机制的长距离依赖建模能力不匹配。通过在传统卷积操作之前对输入特征进行重新排序,将其分为两个分支,对第一个分支的特征进行水平和垂直排序,然后与第二个分支的特征连接,再通过可分离卷积。这样可以将高强度和低强度的像素组织成矩阵对角线上的规则模式,使卷积能够在动态范围内进行计算,从而部分聚焦于保留干净信息和分别恢复退化特征。
  • 直方图自注意力机制:注意到天气引起的退化会导致相似的模式,不同强度的包含背景特征或天气退化的像素应给予不同程度的注意力。因此提出将空间元素分类到不同的bin中,并在bin内和bin间分配不同的注意力。

2.2.2 双尺度门控前馈(DGFF)模块

  • 考虑到之前的方法在标准前馈网络中通常使用单范围或单尺度卷积来增强局部上下文,但忽略了动态分布的天气引起的退化之间的相关性。因此设计了DGFF模块,它在传输过程中集成了两个不同的多范围和多尺度深度卷积路径,通过不同的卷积操作和门控机制来增强对多尺度和多范围信息的提取能力。

2.3 结构

  • 包含两个关键模块
    • DHSA模块:由动态范围卷积和直方图自注意力机制组成。动态范围卷积对输入特征进行重新排序,直方图自注意力机制对重新排序后的特征进行处理,包括将特征分为Value特征和Query - Key对,对Value特征进行排序并根据其索引对Query - Key对进行排列,然后将特征重塑为两种类型(bin - wise直方图重塑和frequency - wise直方图重塑),分别通过两种重塑方式和后续的自注意力过程,最后将输出元素相乘得到最终输出。
    • DGFF模块:输入张量首先经过点卷积操作增加通道维度,然后分为两个并行分支。在特征转换过程中,一个分支使用5×5深度卷积,另一个分支使用扩张的3×3深度卷积来增强多范围和多尺度信息的提取。第二个分支的输出经过激活后作为门控图作用于第一个分支,最后通过像素重排和逆重排操作以及点卷积得到输出并传递到下一个阶段。

在这里插入图片描述

2.4 优势

  • 有效捕捉动态范围的特征DHSA模块通过动态范围卷积和直方图自注意力机制,能够有效地捕捉天气引起的动态空间退化特征,实现对长距离空间特征的建模,克服了现有方法的局限性。
  • 提取多尺度和多范围信息DGFF模块通过集成两个不同的多范围和多尺度深度卷积路径,能够更好地提取图像中的多尺度和多范围信息,增强了对天气退化图像的恢复能力。
  • 提高图像恢复性能:通过上述两个模块的协同作用,Histogram Transformer Block能够提高恶劣天气图像恢复的性能,在多个数据集上取得了较好的效果。

论文:https://arxiv.org/pdf/2407.10172
源码:https://github.com/sunshangquan/Histoformer

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/142940088

目录
相关文章
|
9月前
|
机器学习/深度学习
YOLOv8改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
YOLOv8改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
372 0
|
机器学习/深度学习 编解码 IDE
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
|
3天前
|
机器学习/深度学习 资源调度 计算机视觉
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
18 6
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
|
15小时前
|
计算机视觉
YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
19 11
YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
|
14小时前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
20 9
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
14小时前
|
机器学习/深度学习 PyTorch TensorFlow
YOLOv11改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
YOLOv11改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
24 12
YOLOv11改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
|
6月前
|
机器学习/深度学习 算法 C语言
5.2.1 Backbone(特征提取) 5.2.2 Neck(多尺度检测)
这篇文章介绍了YOLOv3目标检测模型中的Backbone(特征提取)部分,详细阐述了使用Darknet53作为骨干网络来提取图像特征的方法,并通过代码示例展示了如何实现Darknet53网络结构以及如何查看不同层级输出特征图的形状,同时还讨论了Neck(多尺度检测)的概念,解释了如何通过特征图的尺寸放大和融合来实现对不同尺寸目标的检测。
|
7月前
|
计算机视觉 异构计算
【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互,保持高准确度的同时减少计算成本
YOLOv8专栏介绍了该系列目标检测框架的最新改进与实战应用。文章提出RT-DETR,首个实时端到端检测器,解决了速度与精度问题。通过高效混合编码器和不确定性最小化查询选择,RT-DETR在COCO数据集上实现高AP并保持高帧率,优于其他YOLO版本。论文和代码已开源。核心代码展示了AIFI Transformer层,用于位置嵌入。更多详情见[YOLOv8专栏](https://blog.csdn.net/shangyanaf/category_12303415.html)。
|
9月前
|
机器学习/深度学习 编解码 计算机视觉
YOLOv8改进 | 2023 | Deformable-LKA可变形大核注意力(涨点幅度超高)
YOLOv8改进 | 2023 | Deformable-LKA可变形大核注意力(涨点幅度超高)
238 0
|
8月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLOv8改进】Non-Local:基于非局部均值去噪滤波的自注意力模型 (论文笔记+引入代码)
YOLO目标检测专栏探讨了YOLO的创新改进,包括引入非局部操作以捕获远程依赖,增强上下文信息。非局部模块可应用于图像分类、目标检测等任务,尤其适合视频分类。文章介绍了Non-local自注意力模型,通过计算任意位置间交互,提供全局信息。此外,展示了如何在YOLOv8中实现NLBlockND模块。详细内容及实战配置见相关链接。
【YOLOv8改进】Non-Local:基于非局部均值去噪滤波的自注意力模型 (论文笔记+引入代码)