RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能

简介: RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能

一、本文介绍

本文记录的是利用Conv2Former优化RT-DETR的目标检测网络模型Transformer通过自注意力机制能够获取全局信息,但资源占用较大。卷积操作资源占用较少,但只能根据卷积核的大小获取局部信息。Conv2Former==通过卷积调制操作简化了自注意力机制,更有效地利用了大核卷积,在视觉识别任务中表现出较好的性能。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Conv2Former介绍

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

Conv2Former是一种用于视觉识别的新型卷积网络架构,其设计的原理和优势如下:

2.1 原理

2.1.1 整体架构

Conv2Former采用金字塔结构,与ConvNeXtSwin Transformer网络类似,共四个阶段,每阶段特征图分辨率不同,连续阶段间使用patch embedding块(通常为步长2的2×2卷积)降低分辨率,不同阶段有不同数量的卷积块,构建了Conv2Former-NConv2Former-TConv2Former-SConv2Forme -BConv2Former-L五种变体。

2.1.1 卷积调制块

  • Self-Attention:对于输入令牌序列X,Self-Attention首先通过线性层生成键K、查询Q和值V,输出为值的加权平均,基于相似性得分矩阵A,A通过Softmax(QK⊤)计算,矩阵A的形状为R ^ {N×N},使得自注意力的计算复杂度随序列长度N的增加而呈二次方增长。
  • 卷积调制:输入令牌X ∈ R ^ {H×W×C},使用核大小为k×k的简单深度卷积和哈达玛积计算输出z,具体为Z = A ⊙ V,A = DConv(k×k)(W1X),V = W2X,其中⊙是哈达玛积,w1和w2是两个线性层的权重矩阵,DConv(k×k)表示核大小为k×k的深度卷积。这样使得每个空间位置(h, w)与以(h, w)为中心的k×k方形区域内的所有像素相关联,通过线性层实现通道间的信息交互,每个空间位置的输出是该方形区域内所有像素的加权和。

在这里插入图片描述

2.2 优势

  • 与Self - attention对比:利用卷积建立关系,在处理高分辨率图像时比Self-Attention更节省内存。
    • 与经典残差块对比:由于调制操作,能够适应输入内容。
    • 对大核卷积的利用:ConvNeXt受益于将卷积核大小从3增大到7,但进一步增加核大小几乎没有性能增益且带来计算负担,而Conv2Former随着核大小从5×5增加到21×21,性能有持续提升,且默认将核大小设置为11×11以考虑模型效率。
    • 加权策略:将深度卷积的输出作为权重来调制线性投影后的特征,且在哈达玛积之前不使用激活或归一化层(如Sigmoid或Lp归一化),这是获得良好性能的关键因素,例如添加Sigmoid函数会使性能下降超过0.5%。
    • 实验结果:在ImageNet分类、COCO对象检测和ADE20k语义分割等任务中,Conv2Former的性能优于之前流行的ConvNets和大多数基于Transformer的模型。

论文:https://arxiv.org/pdf/2211.11943
源码: https://github.com/HVision-NKU/Conv2Former

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144076417

相关文章
|
7月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
8月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
750 11
|
8月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
529 0
|
10月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
570 7
|
11月前
|
机器学习/深度学习 数据采集 监控
基于CNN卷积神经网络和GEI步态能量提取的步态识别算法matlab仿真,对比不同角度下的步态识别性能
本项目基于CNN卷积神经网络与GEI步态能量提取技术,实现高效步态识别。算法使用不同角度(0°、45°、90°)的步态数据库进行训练与测试,评估模型在多角度下的识别性能。核心流程包括步态图像采集、GEI特征提取、数据预处理及CNN模型训练与评估。通过ReLU等激活函数引入非线性,提升模型表达能力。项目代码兼容Matlab2022a/2024b,提供完整中文注释与操作视频,助力研究与应用开发。
|
11月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容包含时间序列预测算法的相关资料,涵盖以下几个方面:1. 算法运行效果预览(无水印);2. 运行环境为Matlab 2022a/2024b;3. 提供部分核心程序,完整版含中文注释及操作视频;4. 理论概述:结合时间卷积神经网络(TCN)与鲸鱼优化算法(WOA),优化TCN超参数以提升非线性时间序列预测性能。通过因果卷积层与残差连接构建TCN模型,并用WOA调整卷积核大小、层数等参数,实现精准预测。适用于金融、气象等领域决策支持。
|
11月前
|
机器学习/深度学习 数据采集 并行计算
基于WOA鲸鱼优化的TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于TCN(Temporal Convolutional Network)与WOA(Whale Optimization Algorithm)的时间序列预测算法。TCN通过扩张卷积捕捉时间序列长距离依赖关系,结合批归一化和激活函数提取特征;WOA用于优化TCN网络参数,提高预测精度。算法流程包括数据归一化、种群初始化、适应度计算及参数更新等步骤。程序基于Matlab2022a/2024b开发,完整版含详细中文注释与操作视频,运行效果无水印展示。适用于函数优化、机器学习调参及工程设计等领域复杂任务。
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
462 17
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
352 10
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。