YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

2025-02-04 15

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

一、本文介绍

本文记录的是利用Conv2Former优化YOLOv11的目标检测网络模型。Transformer通过自注意力机制能够获取全局信息，但资源占用较大。卷积操作资源占用较少，但只能根据卷积核的大小获取局部信息。Conv2Former==通过卷积调制操作简化了自注意力机制，更有效地利用了大核卷积，在视觉识别任务中表现出较好的性能。==

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、Conv2Former介绍

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

Conv2Former是一种用于视觉识别的新型卷积网络架构，其设计的原理和优势如下：

2.1 原理

2.1.1 整体架构

Conv2Former采用金字塔结构，与ConvNeXt和Swin Transformer网络类似，共四个阶段，每阶段特征图分辨率不同，连续阶段间使用patch embedding块（通常为步长2的2×2卷积）降低分辨率，不同阶段有不同数量的卷积块，构建了Conv2Former-N、Conv2Former-T、Conv2Former-S、Conv2Forme -B、Conv2Former-L五种变体。

2.1.1 卷积调制块

Self-Attention：对于输入令牌序列X，Self-Attention首先通过线性层生成键K、查询Q和值V，输出为值的加权平均，基于相似性得分矩阵A，A通过Softmax(QK⊤)计算，矩阵A的形状为R ^ {N×N}，使得自注意力的计算复杂度随序列长度N的增加而呈二次方增长。
卷积调制：输入令牌X ∈ R ^ {H×W×C}，使用核大小为k×k的简单深度卷积和哈达玛积计算输出z，具体为Z = A ⊙ V，A = DConv(k×k)(W1X)，V = W2X，其中⊙是哈达玛积，w1和w2是两个线性层的权重矩阵，DConv(k×k)表示核大小为k×k的深度卷积。这样使得每个空间位置(h, w)与以(h, w)为中心的k×k方形区域内的所有像素相关联，通过线性层实现通道间的信息交互，每个空间位置的输出是该方形区域内所有像素的加权和。

在这里插入图片描述

2.2 优势

与Self - attention对比：利用卷积建立关系，在处理高分辨率图像时比Self-Attention更节省内存。
- 与经典残差块对比：由于调制操作，能够适应输入内容。
- 对大核卷积的利用：ConvNeXt受益于将卷积核大小从3增大到7，但进一步增加核大小几乎没有性能增益且带来计算负担，而Conv2Former随着核大小从5×5增加到21×21，性能有持续提升，且默认将核大小设置为11×11以考虑模型效率。
- 加权策略：将深度卷积的输出作为权重来调制线性投影后的特征，且在哈达玛积之前不使用激活或归一化层（如Sigmoid或Lp归一化），这是获得良好性能的关键因素，例如添加Sigmoid函数会使性能下降超过0.5%。
- 实验结果：在ImageNet分类、COCO对象检测和ADE20k语义分割等任务中，Conv2Former的性能优于之前流行的ConvNets和大多数基于Transformer的模型。

论文：https://arxiv.org/pdf/2211.11943
源码： https://github.com/HVision-NKU/Conv2Former

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/142818550

YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

一、本文介绍

二、Conv2Former介绍

2.1 原理

2.1.1 整体架构

2.1.1 卷积调制块

2.2 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制，提高网络性能

一、本文介绍

二、Conv2Former介绍

2.1 原理

2.1.1 整体架构

2.1.1 卷积调制块

2.2 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景