RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

2025-02-09 12

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

一、本文介绍

本文记录的是利用Conv2Former优化RT-DETR的目标检测网络模型。Transformer通过自注意力机制能够获取全局信息，但资源占用较大。卷积操作资源占用较少，但只能根据卷积核的大小获取局部信息。Conv2Former==通过卷积调制操作简化了自注意力机制，更有效地利用了大核卷积，在视觉识别任务中表现出较好的性能。==

专栏目录：RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：RT-DETR改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、Conv2Former介绍

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

Conv2Former是一种用于视觉识别的新型卷积网络架构，其设计的原理和优势如下：

2.1 原理

2.1.1 整体架构

Conv2Former采用金字塔结构，与ConvNeXt和Swin Transformer网络类似，共四个阶段，每阶段特征图分辨率不同，连续阶段间使用patch embedding块（通常为步长2的2×2卷积）降低分辨率，不同阶段有不同数量的卷积块，构建了Conv2Former-N、Conv2Former-T、Conv2Former-S、Conv2Forme -B、Conv2Former-L五种变体。

2.1.1 卷积调制块

Self-Attention：对于输入令牌序列X，Self-Attention首先通过线性层生成键K、查询Q和值V，输出为值的加权平均，基于相似性得分矩阵A，A通过Softmax(QK⊤)计算，矩阵A的形状为R ^ {N×N}，使得自注意力的计算复杂度随序列长度N的增加而呈二次方增长。
卷积调制：输入令牌X ∈ R ^ {H×W×C}，使用核大小为k×k的简单深度卷积和哈达玛积计算输出z，具体为Z = A ⊙ V，A = DConv(k×k)(W1X)，V = W2X，其中⊙是哈达玛积，w1和w2是两个线性层的权重矩阵，DConv(k×k)表示核大小为k×k的深度卷积。这样使得每个空间位置(h, w)与以(h, w)为中心的k×k方形区域内的所有像素相关联，通过线性层实现通道间的信息交互，每个空间位置的输出是该方形区域内所有像素的加权和。

在这里插入图片描述

2.2 优势

与Self - attention对比：利用卷积建立关系，在处理高分辨率图像时比Self-Attention更节省内存。
- 与经典残差块对比：由于调制操作，能够适应输入内容。
- 对大核卷积的利用：ConvNeXt受益于将卷积核大小从3增大到7，但进一步增加核大小几乎没有性能增益且带来计算负担，而Conv2Former随着核大小从5×5增加到21×21，性能有持续提升，且默认将核大小设置为11×11以考虑模型效率。
- 加权策略：将深度卷积的输出作为权重来调制线性投影后的特征，且在哈达玛积之前不使用激活或归一化层（如Sigmoid或Lp归一化），这是获得良好性能的关键因素，例如添加Sigmoid函数会使性能下降超过0.5%。
- 实验结果：在ImageNet分类、COCO对象检测和ADE20k语义分割等任务中，Conv2Former的性能优于之前流行的ConvNets和大多数基于Transformer的模型。

论文：https://arxiv.org/pdf/2211.11943
源码： https://github.com/HVision-NKU/Conv2Former

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/144076417

RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

一、本文介绍

二、Conv2Former介绍

2.1 原理

2.1.1 整体架构

2.1.1 卷积调制块

2.2 优势

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

一、本文介绍

二、Conv2Former介绍

2.1 原理

2.1.1 整体架构

2.1.1 卷积调制块

2.2 优势

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关电子书