一、本文介绍
本文记录的是利用DAT可变形注意力
模块优化YOLOv11
的目标检测网络模型。DAT
全称为Deformable Attention Transformer
,其作用在于通过可变形自注意力机制,同时包含了数据依赖的注意力模式,克服了常见注意力方法存在的内存计算成本高、受无关区域影响以及数据不可知等问题。相比一些只提供固定注意力模式的方法,能更好地聚焦于相关区域并捕捉更有信息的特征。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、Deformable Attention Transformer介绍
Vision Transformer with Deformable Attention
2.1 出发点
- 解决现有注意力机制的问题
- 现有的
Vision Transformers
存在使用密集注意力导致内存和计算成本过高,特征可能受无关区域影响的问题。 Swin Transformer
采用的稀疏注意力是数据不可知的,可能限制对长距离关系建模的能力。
- 现有的
- 借鉴可变形卷积网络(DCN)的思想
DCN
在CNN中通过学习可变形感受野,能在数据依赖的基础上选择性地关注更有信息的区域,取得了很好的效果,启发了在Vision Transformers中探索可变形注意力模式。
2.2 原理
- 数据依赖的注意力模式
- 通过一个
偏移网络(offset network)
根据输入的查询特征(query features)
学习到参考点(reference points)
的偏移量(offsets)
,从而确定在特征图中需要关注的重要区域。 - 这种方式使得注意力模块能够以数据依赖的方式聚焦于相关区域,避免了对无关区域的关注,同时也克服了手工设计的稀疏注意力模式可能丢失相关信息的问题。
- 通过一个
2.3 结构
2.3.1 参考点生成
- 首先在特征图上生成均匀网格的参考点$p \in \mathbb{R}^{H{G} ×W{G} ×2}$,网格大小是从输入特征图大小按因子$r$下采样得到的,即$H{G}=H / r$,$W{G}=W / r$。参考点的值是线性间隔的2D坐标,并归一化到$[-1, +1]$范围。
2.3.2 偏移量计算
- 将特征图线性投影得到查询令牌$q=x W{q}$,然后送入一个轻量级的子网$\theta{offset }(\cdot)$生成偏移量$\Delta p=\theta_{offset }(q)$。为了稳定训练过程,会对$\Delta p$的幅度进行缩放。
2.3.3 特征采样与投影
- 根据偏移量在变形点的位置对特征进行采样作为键(keys)和值(values),即$\tilde{k}=\tilde{x} W{k}$,$\tilde{v}=\tilde{x} W{v}$,其中$\tilde{x}=\phi(x ; p+\Delta p)$,采样函数$\phi(\cdot ; \cdot)$采用双线性插值。
2.3.4 注意力计算
- 对查询$q$和变形后的键$\tilde{k}$进行多头注意力计算,注意力头的输出公式为$z^{(m)}=\sigma\left(q^{(m)} \tilde{k}^{(m) \top} / \sqrt{d}+\phi(\hat{B} ; R)\right) \tilde{v}^{(m)}$,其中还考虑了相对位置偏移$R$和变形点提供的更强大的相对位置偏差$\phi(\hat{B} ; R)$。
2.4 优势
- 根据偏移量在变形点的位置对特征进行采样作为键(keys)和值(values),即$\tilde{k}=\tilde{x} W{k}$,$\tilde{v}=\tilde{x} W{v}$,其中$\tilde{x}=\phi(x ; p+\Delta p)$,采样函数$\phi(\cdot ; \cdot)$采用双线性插值。
- 灵活性和效率
- 能够根据输入数据动态地确定关注区域,聚焦于相关信息,避免了对无关区域的计算和关注,提高了模型的效率。
- 通过学习共享的偏移量,在保持线性空间复杂度的同时,实现了可变形的注意力模式,相比于直接应用DCN机制到注意力模块,大大降低了计算复杂度。
- 性能优势
- 在多个基准数据集上的实验表明,基于
可变形注意力模块
构建的Deformable Attention Transformer
模型在图像分类、目标检测和语义分割等任务上取得了优于竞争基准模型的结果,如在ImageNet分类任务上,相比Swin Transformer在Top - 1准确率上有显著提升。
- 在多个基准数据集上的实验表明,基于
论文:https://openaccess.thecvf.com/content/CVPR2022/papers/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.pdf
源码:https://github.com/LeapLabTHU/DAT
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: