YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力动态关注目标区域

2025-02-04 18

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力动态关注目标区域

一、本文介绍

本文记录的是利用DAT可变形注意力模块优化YOLOv11的目标检测网络模型。DAT全称为Deformable Attention Transformer，其作用在于通过可变形自注意力机制，同时包含了数据依赖的注意力模式，克服了常见注意力方法存在的内存计算成本高、受无关区域影响以及数据不可知等问题。相比一些只提供固定注意力模式的方法，能更好地聚焦于相关区域并捕捉更有信息的特征。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、Deformable Attention Transformer介绍

Vision Transformer with Deformable Attention

2.1 出发点

解决现有注意力机制的问题
- 现有的Vision Transformers存在使用密集注意力导致内存和计算成本过高，特征可能受无关区域影响的问题。
- Swin Transformer采用的稀疏注意力是数据不可知的，可能限制对长距离关系建模的能力。
借鉴可变形卷积网络（DCN）的思想
- DCN在CNN中通过学习可变形感受野，能在数据依赖的基础上选择性地关注更有信息的区域，取得了很好的效果，启发了在Vision Transformers中探索可变形注意力模式。

在这里插入图片描述

2.2 原理

数据依赖的注意力模式
- 通过一个偏移网络（offset network）根据输入的查询特征（query features）学习到参考点（reference points）的偏移量（offsets），从而确定在特征图中需要关注的重要区域。
- 这种方式使得注意力模块能够以数据依赖的方式聚焦于相关区域，避免了对无关区域的关注，同时也克服了手工设计的稀疏注意力模式可能丢失相关信息的问题。

2.3 结构

2.3.1 参考点生成

首先在特征图上生成均匀网格的参考点$p \in \mathbb{R}^{H{G} ×W{G} ×2}$，网格大小是从输入特征图大小按因子$r$下采样得到的，即$H{G}=H / r$，$W{G}=W / r$。参考点的值是线性间隔的2D坐标，并归一化到$[-1, +1]$范围。
2.3.2 偏移量计算
将特征图线性投影得到查询令牌$q=x W{q}$，然后送入一个轻量级的子网$\theta{offset }(\cdot)$生成偏移量$\Delta p=\theta_{offset }(q)$。为了稳定训练过程，会对$\Delta p$的幅度进行缩放。
2.3.3 特征采样与投影
- 根据偏移量在变形点的位置对特征进行采样作为键（keys）和值（values），即$\tilde{k}=\tilde{x} W{k}$，$\tilde{v}=\tilde{x} W{v}$，其中$\tilde{x}=\phi(x ; p+\Delta p)$，采样函数$\phi(\cdot ; \cdot)$采用双线性插值。
  2.3.4 注意力计算
- 对查询$q$和变形后的键$\tilde{k}$进行多头注意力计算，注意力头的输出公式为$z^{(m)}=\sigma\left(q^{(m)} \tilde{k}^{(m) \top} / \sqrt{d}+\phi(\hat{B} ; R)\right) \tilde{v}^{(m)}$，其中还考虑了相对位置偏移$R$和变形点提供的更强大的相对位置偏差$\phi(\hat{B} ; R)$。
  2.4 优势
灵活性和效率
- 能够根据输入数据动态地确定关注区域，聚焦于相关信息，避免了对无关区域的计算和关注，提高了模型的效率。
- 通过学习共享的偏移量，在保持线性空间复杂度的同时，实现了可变形的注意力模式，相比于直接应用DCN机制到注意力模块，大大降低了计算复杂度。
性能优势
- 在多个基准数据集上的实验表明，基于可变形注意力模块构建的Deformable Attention Transformer模型在图像分类、目标检测和语义分割等任务上取得了优于竞争基准模型的结果，如在ImageNet分类任务上，相比Swin Transformer在Top - 1准确率上有显著提升。

论文：https://openaccess.thecvf.com/content/CVPR2022/papers/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.pdf
源码：https://github.com/LeapLabTHU/DAT

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/143331440

YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力动态关注目标区域

一、本文介绍

二、Deformable Attention Transformer介绍

2.1 出发点

2.2 原理

2.3 结构

2.3.1 参考点生成

2.3.2 偏移量计算

2.3.3 特征采样与投影

2.3.4 注意力计算

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域

一、本文介绍

二、Deformable Attention Transformer介绍

2.1 出发点

2.2 原理

2.3 结构

2.3.1 参考点生成

2.3.2 偏移量计算

2.3.3 特征采样与投影

2.3.4 注意力计算

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力动态关注目标区域