RT-DETR改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形注意力 动态关注目标区域

简介: RT-DETR改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形注意力 动态关注目标区域

一、本文介绍

本文记录的是利用DAT可变形注意力模块优化RT-DETR的目标检测网络模型DAT全称为Deformable Attention Transformer,其作用在于通过可变形注意力机制,同时包含了数据依赖的注意力模式,克服了常见注意力方法存在的内存计算成本高、受无关区域影响以及数据不可知等问题。相比一些只提供固定注意力模式的方法,能更好地聚焦于相关区域并捕捉更有信息的特征。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Deformable Attention Transformer介绍

Vision Transformer with Deformable Attention

2.1 出发点

  • 解决现有注意力机制的问题
    • 现有的Vision Transformers存在使用密集注意力导致内存和计算成本过高,特征可能受无关区域影响的问题。
    • Swin Transformer采用的稀疏注意力是数据不可知的,可能限制对长距离关系建模的能力。
  • 借鉴可变形卷积网络(DCN)的思想
    • DCN在CNN中通过学习可变形感受野,能在数据依赖的基础上选择性地关注更有信息的区域,取得了很好的效果,启发了在Vision Transformers中探索可变形注意力模式。

在这里插入图片描述

2.2 原理

  • 数据依赖的注意力模式
    • 通过一个偏移网络(offset network)根据输入的查询特征(query features)学习到参考点(reference points)偏移量(offsets),从而确定在特征图中需要关注的重要区域。
    • 这种方式使得注意力模块能够以数据依赖的方式聚焦于相关区域,避免了对无关区域的关注,同时也克服了手工设计的稀疏注意力模式可能丢失相关信息的问题。

2.3 结构

2.3.1 参考点生成

  • 首先在特征图上生成均匀网格的参考点$p \in \mathbb{R}^{H{G} ×W{G} ×2}$,网格大小是从输入特征图大小按因子$r$下采样得到的,即$H{G}=H / r$,$W{G}=W / r$。参考点的值是线性间隔的2D坐标,并归一化到$[-1, +1]$范围。

    2.3.2 偏移量计算

  • 将特征图线性投影得到查询令牌$q=x W{q}$,然后送入一个轻量级的子网$\theta{offset }(\cdot)$生成偏移量$\Delta p=\theta_{offset }(q)$。为了稳定训练过程,会对$\Delta p$的幅度进行缩放。

    2.3.3 特征采样与投影

    • 根据偏移量在变形点的位置对特征进行采样作为键(keys)和值(values),即$\tilde{k}=\tilde{x} W{k}$,$\tilde{v}=\tilde{x} W{v}$,其中$\tilde{x}=\phi(x ; p+\Delta p)$,采样函数$\phi(\cdot ; \cdot)$采用双线性插值。

      2.3.4 注意力计算

    • 对查询$q$和变形后的键$\tilde{k}$进行多头注意力计算,注意力头的输出公式为$z^{(m)}=\sigma\left(q^{(m)} \tilde{k}^{(m) \top} / \sqrt{d}+\phi(\hat{B} ; R)\right) \tilde{v}^{(m)}$,其中还考虑了相对位置偏移$R$和变形点提供的更强大的相对位置偏差$\phi(\hat{B} ; R)$。
      在这里插入图片描述

      2.4 优势

  • 灵活性和效率
    • 能够根据输入数据动态地确定关注区域,聚焦于相关信息,避免了对无关区域的计算和关注,提高了模型的效率。
    • 通过学习共享的偏移量,在保持线性空间复杂度的同时,实现了可变形的注意力模式,相比于直接应用DCN机制到注意力模块,大大降低了计算复杂度。
  • 性能优势
    • 在多个基准数据集上的实验表明,基于可变形注意力模块构建的Deformable Attention Transformer模型在图像分类、目标检测和语义分割等任务上取得了优于竞争基准模型的结果,如在ImageNet分类任务上,相比Swin Transformer在Top - 1准确率上有显著提升。

论文:https://openaccess.thecvf.com/content/CVPR2022/papers/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.pdf
源码:https://github.com/LeapLabTHU/DAT

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144103666

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
3天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
1969 101
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171370 17
|
10天前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
8544 86
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150307 32
|
1天前
|
人工智能 自然语言处理 JavaScript
宜搭上新,DeepSeek 插件来了!
钉钉宜搭近日上线了DeepSeek插件,无需编写复杂代码,普通用户也能轻松调用强大的AI大模型能力。安装后,平台新增「AI生成」组件,支持创意内容生成、JS代码编译、工作汇报等场景,大幅提升工作效率。快来体验这一高效智能的办公方式吧!
883 5
|
2天前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
660 5
阿里云PAI部署DeepSeek及调用
|
11天前
|
人工智能 自然语言处理 Java
Spring AI,搭建个人AI助手
本期主要是实操性内容,聊聊AI大模型,并使用Spring AI搭建属于自己的AI助手、知识库。本期所需的演示源码笔者托管在Gitee上(https://gitee.com/catoncloud/spring-ai-demo),读者朋友可自行查阅。
938 41
Spring AI,搭建个人AI助手
|
3天前
|
机器学习/深度学习 人工智能 并行计算
一文了解火爆的DeepSeek R1 | AIGC
DeepSeek R1是由DeepSeek公司推出的一款基于强化学习的开源推理模型,无需依赖监督微调或人工标注数据。它在数学、代码和自然语言推理任务上表现出色,具备低成本、高效率和多语言支持等优势,广泛应用于教育辅导、金融分析等领域。DeepSeek R1通过长链推理、多语言支持和高效部署等功能,显著提升了复杂任务的推理准确性,并且其创新的群体相对策略优化(GRPO)算法进一步提高了训练效率和稳定性。此外,DeepSeek R1的成本低至OpenAI同类产品的3%左右,为用户提供了更高的性价比。
785 10
|
2月前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201994 15
对话 | ECS如何构筑企业上云的第一道安全防线

热门文章

最新文章