YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块解决密集图像预测问题

2025-02-07 417

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块解决密集图像预测问题

一、本文介绍

本文主要利用FreqFusion结构改进YOLOv11的目标检测网络模型。FreqFusion结构针对传统特征融合在密集图像预测中存在的问题，创新性地引入自适应低通滤波器生成器、偏移量生成器和自适应高通滤波器生成器。将FreqFusion应用于YOLOv11的改进过程中，能够使模型在处理复杂场景图像时，更精准地聚焦目标物体边界，减少背景噪声干扰，显著强化目标物体边界特征表达，进而提升模型在复杂场景下对目标物体的检测精度与定位准确性。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、FreqFusion介绍

Frequency-aware Feature Fusion for Dense Image Prediction

FreqFusion是一种旨在解决密集图像预测任务中特征融合问题的方法，以下从其结构设计的出发点、结构、原理和作用等方面进行详细介绍：

2.1 出发点

标准特征融合技术存在两个问题，即类别内不一致性和边界位移。

例如，同一物体不同部分的特征差异大导致类别内不一致；简单插值使特征过度平滑导致边界位移，且下层次特征的详细边界信息未被充分利用。

2.2 结构

由自适应低通滤波器（ALPF）生成器、偏移生成器和自适应高通滤波器（AHPF）生成器三个关键组件构成。

在这里插入图片描述

2.3 原理

首先进行初始融合，将低层次和高层次特征压缩并融合，为三个生成器提供输入。
- 简单初始融合存在不足，一是采用简单插值上采样压缩特征导致边界模糊；
- 二是ALPF生成器依赖高频信息，但传统卷积层只能捕获固定高频模式。
- 为此进行了增强，利用ALPF生成器生成初始低通滤波器来上采样压缩的高层次特征，并采用AHPF生成器提取特征图中的高频分量。
ALPF生成器以初始融合的$z^{l}$为输入，通过3×3卷积层和Softmax层预测空间变化的低通滤波器。接着使用亚像素上采样技术，将低通滤波器重构成4组，得到4组低通滤波后的特征，再重新排列形成上采样后的特征。
偏移生成器根据局部相似度计算偏移量，用于重采样特征像素，用具有高类别内相似度的附近特征替换高层次特征中的不一致特征。
AHPF生成器预测并应用空间变化的高通滤波器到低层次特征，以增强下采样过程中丢失的高频细节信息，从而更准确地描绘边界。

在这里插入图片描述

2.4 作用

FreqFusion通过自适应地用空间变化的低通滤波器平滑高层次特征、重采样附近类别一致的特征来替换高层次特征中的不一致特征、增强低层次特征的高频边界细节，来解决类别不一致性和边界位移问题，从而恢复具有一致类别信息和清晰边界的融合特征。提高了特征一致性和边界清晰度，在各种密集预测任务中取得了显著的性能提升。