RT-DETR改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块

简介: RT-DETR改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块

一、本文介绍

本文记录的是利用Bottleneck Transformers (BoT)优化RT-DETR的目标检测网络模型。标准的卷积操作虽然能有效捕获局部信息,但在处理需要全局信息整合的任务时存在局限性,而自注意力机制能够有效地建模长距离依赖,因此考虑将其引入到视觉架构中。==本文利用BoT模块将标准卷积和自注意力相结合,提高模型的全局感知能力。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Bottleneck Transformers介绍

Bottleneck Transformers for Visual Recognition

Bottleneck Transformers(BoTNet)是一种将自注意力(Self-Attention)融入计算机视觉任务的骨干架构,其设计的原理和优势如下:

2.1 原理

2.1.1 架构组成

BoT block是通过将ResNet瓶颈块中的空间3×3卷积替换为Multi-Head Self-Attention(MHSA)层来构建的(如图所示)。

在这里插入图片描述

2.2.2 MHSA层

MHSA层在二维特征图上实现全局(all2all)自注意力(如图所示)。为了使注意力操作具有位置感知能力,使用了相对位置编码。注意力的计算逻辑为$qk^{T} + qr^{T}$,其中$q, k, r$分别代表查询、键和相对位置编码。此外,MHSA层还使用了多个头,并且相对位置编码和值投影是它与Non - Local Layer的主要区别。

在这里插入图片描述

2.1 优势

  • 性能提升
    • 在COCO实例分割基准测试中,使用BoTNet显著提高了性能,如在不同训练配置和数据增强情况下,性能均有提升。
    • 对小对象的检测性能有显著增强,在不同ResNet家族骨干网络上的实验也表明了其适用性。
    • 与Non - Local Neural Networks相比,BoTNet中的BoT块设计更好,能够带来更高的性能提升。
  • 可扩展性:通过调整和扩展BoTNet的模型结构,可以在ImageNet验证集上达到较高的准确率,同时在计算效率上具有优势。
  • 简单有效BoT block的设计简单,基于已有的ResNet架构进行改进,易于实现和应用。尽管在构建上相对简单,但性能出色,为未来视觉架构中自注意力的应用提供了一个强有力的基线。

论文:https://arxiv.org/pdf/2101.11605
源码: https://github.com/tensorflow/tpu/tree/master/models/official/detection

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144076401

目录
相关文章
|
20小时前
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
74 63
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
|
4天前
|
机器学习/深度学习 并行计算 API
Qwen2.5-1M: 支持100万Tokens上下文的开源Qwen模型
两个月前,Qwen团队升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。今天,Qwen正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。
|
4天前
|
缓存 负载均衡 Java
2025春招 SpringCloud 面试题汇总
大家好,我是V哥。SpringCloud是面试中的重点,涵盖基础概念、组件细节、高级特性及性能优化等内容。为帮助大家更好地准备2025年的Spring Cloud面试,我整理了一系列常见面试题及答案,涉及服务注册与发现(Eureka)、配置管理(Spring Cloud Config)、负载均衡(Ribbon)、断路器(Hystrix)、微服务网关(Spring Cloud Gateway)等关键知识点。此外,还包括分布式事务管理、链路追踪(Sleuth+Zipkin)、安全性(OAuth2)以及性能优化和实践经验。希望这些内容能助你一臂之力,顺利通过面试。欢迎关注威哥爱编程,全栈之路就你行。
120 24
|
27天前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
1314 56
1月更文特别场——寻找用云高手,分享云&AI实践
|
4天前
|
消息中间件 Linux
Linux中的System V通信标准--共享内存、消息队列以及信号量
希望本文能帮助您更好地理解和应用System V IPC机制,构建高效的Linux应用程序。
62 48
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
|
3天前
|
人工智能 前端开发 JavaScript
详解智能编码在前端研发的创新应用
接下来,人与智能体的交互将变得更为紧密,比如 N 年以后是否可以逐渐过渡。这个逐渐过渡的过程实际上是温和的,从依赖人类到依赖超大规模算力的转变,可能会取代我们的一些职责。这不仅仅是简单的叠加关系。对于AI和超大规模算力,这是否意味着我们可以大幅度提升软件质量,是否可以缩短研发周期并提高效率,还有创造出更优质的软件并持续发展,这无疑是肯定的。
|
2天前
|
机器人 API
自定义飞书Webhook机器人api接口
自定义飞书Webhook机器人api接口
45 25
|
5天前
|
Unix Linux Shell
export在linux中的作用
通过对 `export`命令的详细介绍和实际应用示例,可以更好地理解和使用这一命令来管理Linux环境中的变量配置,从而提高系统管理和脚本编写的效率和灵活性。
44 27
|
22天前
|
缓存 NoSQL 架构师
Redis批量查询的四种技巧,应对高并发场景的利器!
在高并发场景下,巧妙地利用缓存批量查询技巧能够显著提高系统性能。 在笔者看来,熟练掌握细粒度的缓存使用是每位架构师必备的技能。因此,在本文中,我们将深入探讨 Redis 中批量查询的一些技巧,希望能够给你带来一些启发。
78 23
Redis批量查询的四种技巧,应对高并发场景的利器!

热门文章

最新文章