RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势，弥补传统方法不足

2025-02-09 9

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势，弥补传统方法不足

一、本文介绍

本文记录的是利用AssemFormer优化RT-DETR的目标检测网络模型。传统卷积和池化操作会导致信息丢失和压缩缺陷，且传统的注意力机制通常产生固定维度的注意力图，忽略了背景中的丰富上下文信息。本文的利用AssemFormer改进RT-DETR，==以在特征传递和融合过程中增加多尺度的学习能力。==

专栏目录：RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：RT-DETR改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、AssemFormer介绍

Exploiting Scale-Variant Attention for Segmenting Small Medical Objects

2.1 设计出发点

弥补传统方法不足：传统的深度学习算法在处理医学图像中的小对象时面临诸多挑战。例如卷积和池化操作会导致信息丢失和压缩缺陷，尤其对于小医学对象，随着网络加深这些问题更加明显。传统的注意力机制通常产生固定维度的注意力图，往往不足以分析医学图像，因为这些方法主要关注中心特征，忽略了背景中的丰富上下文信息，而这些信息对于临床解释至关重要。
结合卷积与Transformer优势：卷积操作侧重于学习医学对象的局部和一般特征，如角落、边缘、角度和颜色；而Transformer模块利用多头自注意力机制提取医学对象的全局信息，包括形态、深度和颜色分布，同时还能学习医学对象的位置关联。为了综合两者的优势，设计了AssemFormer模块。

2.2 原理

2.2.1 结构组成

AssemFormer模块包含一个$3×3$卷积和一个$1×1$卷积，接着是两个Transformer块和两个卷积操作。它通过堆叠和拆分特征图来连接卷积和Transformer操作。

2.2.2 注意力机制

AssemFormer采用的多头部自注意力机制（MHSA），公式为$\mathcal{A}{ViT}(q,k,v)=softmax\left(\frac{qk^{T}}{\sqrt{D{h}}}\right)v$，其中$q$、$k$、$v$是输入序列$z\in\mathbb{R}^{\hat{N}×\dot{D}}$的查询、键和值向量，$N$表示补丁数量，$D$表示补丁大小，$m$个自注意力操作时$D_{h}=D/m$。这种机制有助于补丁交互并丰富上下文信息。

在这里插入图片描述

2.3 特点

融合多尺度特征：通过堆叠和拆分特征图的方式，使得模块能够同时学习输入医学图像的局部和全局表示，从而更好地捕捉不同尺度的特征，为准确分割小医学对象提供更全面的信息。
提高分割性能：在实验中，根据消融研究结果，AssemFormer显著提高了SvANet的分割性能。例如在不同数据集上，SvANet结合AssemFormer在各项评估指标上均取得了较好的成绩，证明了其对小医学对象分割的有效性。
增强特征表示：从特征图的变化可以看出，AssemFormer能够逐渐突出更小的区域，这些区域更准确地与 ground truth对齐。在不同的医学对象分割场景中，都表现出能够更好地聚焦于目标区域，增强了小医学对象的可见性和精确定位，突出了其形态细节和准确位置。

论文：https://arxiv.org/abs/2407.07720
源码： https://github.com/anthonyweidai/SvANet

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/144076377

RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势，弥补传统方法不足

一、本文介绍

二、AssemFormer介绍

2.1 设计出发点

2.2 原理

2.2.1 结构组成

2.2.2 注意力机制

2.3 特点

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势，弥补传统方法不足

一、本文介绍

二、AssemFormer介绍

2.1 设计出发点

2.2 原理

2.2.1 结构组成

2.2.2 注意力机制

2.3 特点

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景