一、本文介绍
本文记录的是利用DSConv
优化YOLOv11
的目标检测方法研究。在一些特殊目标任务中,细长的管状结构在图像中所占比例小,且易受复杂背景干扰,模型难以精确区分细微的目标变化。普通的变形卷积虽然能适应目标的几何变形,但在处理细管状结构时,由于模型完全自由地学习几何变化,感知区域容易偏离目标,导致难以高效聚焦于细管状结构。==本文所引进的动态蛇形卷积,通过自适应地聚焦于管状结构的细弯局部特征,增强了对几何结构的感知,使改进后的模型能够更好地感知关键特征。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、DSConv原理介绍
基于拓扑几何约束的动态蛇卷积用于管状结构分割
DSConv(Dynamic Snake Convolution,动态蛇形卷积)
模块的设计主要是为了更好地处理管状结构的分割任务,解决传统卷积在处理细管状结构时的不足。
2.1 原理:
- 给定标准2D卷积坐标$K$,中心坐标为$K_i = (x_i, y_i)$,$3\times3$内核$K$( dilation为1)表示为$K = {(x - 1, y - 1), (x - 1, y), \cdots, (x + 1, y + 1)}$。
- 为了使卷积核更能聚焦于目标的复杂几何特征,引入变形偏移$\Delta$。但为避免感知场在细管状结构上偏离目标,使用迭代策略,依次选择每个目标待处理时的观察位置,确保注意力的连续性,防止因变形偏移过大而使感知场扩散太远。
- 在DSConv中,将标准卷积核在x轴和y轴方向上拉直。以大小为9的卷积核为例,在x轴方向,每个网格的具体位置表示为$K{i \pm c} = (x{i \pm c}, y{i \pm c})$,其中$c = {0, 1, 2, 3, 4}$表示到中心网格的水平距离。卷积核$K$中每个网格位置$K{i \pm c}$的选择是一个累积过程,从中心位置$Ki$开始,远离中心网格的位置取决于前一个网格的位置:$K{i + 1}$相比于$Ki$增加一个偏移$\Delta = {\delta | \delta \in [-1, 1]}$,偏移需要进行累加,以确保卷积核符合线性形态结构。在x轴方向上,公式表示为:
$K{i \pm c} =
\begin{cases}
(x{i + c}, y{i + c}) = (x{i} + c, y{i} + \sum{i}^{i + c} \Delta y) \
(x{i - c}, y{i - c}) = (x{i} - c, y{i} + \sum{i - c}^{i} \Delta y)
\end{cases}$
在y轴方向上的公式类似。 - 由于偏移$\Delta$通常是分数形式,采用双线性插值:$K = \sum_{K'} B(K', K) \cdot K'$,其中$K$表示分数位置,$K'$枚举所有整数空间位置,$B$是双线性插值核,可分离为两个一维核:$B(K, K') = b(K_x, K_x') \cdot b(K_y, K_y')$。
2.2 优势:
- 更好地适应管状结构:
DSConv
基于动态结构,能更好地适应细长的管状结构,从而更好地感知关键特征。 - 增强对几何结构的感知:通过自适应地聚焦于管状结构的细弯局部特征,增强了对几何结构的感知,有助于模型更准确地捕获管状结构的特征。
- 避免感知区域偏离:与变形卷积不同,
DSConv
通过引入约束,避免了感知区域在细管状结构上的偏离,使注意力更集中在目标上。
论文:https://arxiv.org/abs/2307.08388
源码:https://github.com/YaoleiQi/DSCNet
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: