一、本文介绍
本文记录的是利用AssemFormer
优化RT-DETR
的目标检测网络模型。传统卷积和池化操作会导致信息丢失和压缩缺陷,且传统的注意力机制通常产生固定维度的注意力图,忽略了背景中的丰富上下文信息。本文的利用AssemFormer
改进RT-DETR
,==以在特征传递和融合过程中增加多尺度的学习能力。==
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、AssemFormer介绍
Exploiting Scale-Variant Attention for Segmenting Small Medical Objects
2.1 设计出发点
- 弥补传统方法不足:传统的深度学习算法在处理医学图像中的小对象时面临诸多挑战。例如卷积和池化操作会导致信息丢失和压缩缺陷,尤其对于小医学对象,随着网络加深这些问题更加明显。传统的注意力机制通常产生固定维度的注意力图,往往不足以分析医学图像,因为这些方法主要关注中心特征,忽略了背景中的丰富上下文信息,而这些信息对于临床解释至关重要。
- 结合卷积与Transformer优势:卷积操作侧重于学习医学对象的局部和一般特征,如角落、边缘、角度和颜色;而Transformer模块利用多头自注意力机制提取医学对象的全局信息,包括形态、深度和颜色分布,同时还能学习医学对象的位置关联。为了综合两者的优势,设计了AssemFormer模块。
2.2 原理
2.2.1 结构组成
AssemFormer模块
包含一个$3×3$卷积和一个$1×1$卷积,接着是两个Transformer块和两个卷积操作。它通过堆叠和拆分特征图来连接卷积和Transformer操作。
2.2.2 注意力机制
AssemFormer
采用的多头部自注意力机制(MHSA),公式为$\mathcal{A}{ViT}(q,k,v)=softmax\left(\frac{qk^{T}}{\sqrt{D{h}}}\right)v$,其中$q$、$k$、$v$是输入序列$z\in\mathbb{R}^{\hat{N}×\dot{D}}$的查询、键和值向量,$N$表示补丁数量,$D$表示补丁大小,$m$个自注意力操作时$D_{h}=D/m$。这种机制有助于补丁交互并丰富上下文信息。
2.3 特点
- 融合多尺度特征:通过堆叠和拆分特征图的方式,使得模块能够同时学习输入医学图像的局部和全局表示,从而更好地捕捉不同尺度的特征,为准确分割小医学对象提供更全面的信息。
- 提高分割性能:在实验中,根据消融研究结果,
AssemFormer
显著提高了SvANet的分割性能。例如在不同数据集上,SvANet结合AssemFormer在各项评估指标上均取得了较好的成绩,证明了其对小医学对象分割的有效性。 - 增强特征表示:从特征图的变化可以看出,
AssemFormer
能够逐渐突出更小的区域,这些区域更准确地与 ground truth对齐。在不同的医学对象分割场景中,都表现出能够更好地聚焦于目标区域,增强了小医学对象的可见性和精确定位,突出了其形态细节和准确位置。
论文:https://arxiv.org/abs/2407.07720
源码: https://github.com/anthonyweidai/SvANet
三、实现代码及RT-DETR修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: