YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积，改进C3k2

2025-02-04 10

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积，改进C3k2

一、本文介绍

本文记录的是利用DSConv优化YOLOv11的目标检测方法研究。在一些特殊目标任务中，细长的管状结构在图像中所占比例小，且易受复杂背景干扰，模型难以精确区分细微的目标变化。普通的变形卷积虽然能适应目标的几何变形，但在处理细管状结构时，由于模型完全自由地学习几何变化，感知区域容易偏离目标，导致难以高效聚焦于细管状结构。==本文所引进的动态蛇形卷积，通过自适应地聚焦于管状结构的细弯局部特征，增强了对几何结构的感知，使改进后的模型能够更好地感知关键特征。==

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、DSConv原理介绍

基于拓扑几何约束的动态蛇卷积用于管状结构分割

DSConv（Dynamic Snake Convolution，动态蛇形卷积）模块的设计主要是为了更好地处理管状结构的分割任务，解决传统卷积在处理细管状结构时的不足。

2.1 原理：

给定标准2D卷积坐标$K$，中心坐标为$K_i = (x_i, y_i)$，$3\times3$内核$K$（ dilation为1）表示为$K = {(x - 1, y - 1), (x - 1, y), \cdots, (x + 1, y + 1)}$。
为了使卷积核更能聚焦于目标的复杂几何特征，引入变形偏移$\Delta$。但为避免感知场在细管状结构上偏离目标，使用迭代策略，依次选择每个目标待处理时的观察位置，确保注意力的连续性，防止因变形偏移过大而使感知场扩散太远。
在DSConv中，将标准卷积核在x轴和y轴方向上拉直。以大小为9的卷积核为例，在x轴方向，每个网格的具体位置表示为$K{i \pm c} = (x{i \pm c}, y{i \pm c})$，其中$c = {0, 1, 2, 3, 4}$表示到中心网格的水平距离。卷积核$K$中每个网格位置$K{i \pm c}$的选择是一个累积过程，从中心位置$Ki$开始，远离中心网格的位置取决于前一个网格的位置：$K{i + 1}$相比于$Ki$增加一个偏移$\Delta = {\delta | \delta \in [-1, 1]}$，偏移需要进行累加，以确保卷积核符合线性形态结构。在x轴方向上，公式表示为：
$K{i \pm c} =
\begin{cases}
(x{i + c}, y{i + c}) = (x{i} + c, y{i} + \sum{i}^{i + c} \Delta y) \
(x{i - c}, y{i - c}) = (x{i} - c, y{i} + \sum{i - c}^{i} \Delta y)
\end{cases}$
在y轴方向上的公式类似。
由于偏移$\Delta$通常是分数形式，采用双线性插值：$K = \sum_{K'} B(K', K) \cdot K'$，其中$K$表示分数位置，$K'$枚举所有整数空间位置，$B$是双线性插值核，可分离为两个一维核：$B(K, K') = b(K_x, K_x') \cdot b(K_y, K_y')$。