一、本文介绍
本文记录的是改进YOLOv11
的损失函数,将其替换成Shape-NWD
。Shape-NWD
是一种用于目标检测中边界框回归的方法,它是在Shape-IoU
和NWD(Normalized Wasserstein Distance)
的基础上进行改进的,主要为了更好地处理边界框回归中形状和尺度因素对回归结果的影响,特别是在小目标检测任务中。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、Shape-NWD设计原理
Shape-NWD
是一种用于目标检测中边界框回归的方法,它是在Shape-IoU
和NWD(Normalized Wasserstein Distance)
的基础上进行改进的,主要为了更好地处理边界框回归中形状和尺度因素对回归结果的影响,特别是在小目标检测任务中。
以下是关于Shape-NWD
的详细介绍:
2.1 出发点
- 现有方法的局限性:传统的基于
IoU
的边界框回归方法(如IoU、GIoU、CIoU等)在计算损失时,主要考虑预测框和真实框(GT box)之间的几何关系,如重叠面积、中心点距离等,但忽略了边界框自身形状和尺度对回归结果的影响。在小目标检测场景下,这些方法对IoU值的敏感性问题更加突出。 - 小目标检测的需求:小目标在图像中所占像素较少,其特征相对不明显,使得准确检测小目标变得更加困难。因此,需要一种能够更精准地描述小目标边界框回归损失的方法,以提高小目标检测的性能。
- 形状和尺度因素的重要性:通过对边界框回归特性的分析发现,回归样本中边界框的形状和尺度差异会导致在相同偏差情况下
IoU
值的不同。对于小尺度边界框,其形状和偏差对IoU
值的影响更为显著。因此,在设计小目标检测的边界框回归损失函数时,有必要考虑形状和尺度因素。
2.2 原理
基于Shape-IoU的改进:Shape-NWD
将Shape-IoU
的思想融入到NWD
中。Shape-IoU
在计算损失时引入了与目标尺度相关的尺度因子(scale)以及与GT box 形状相关的水平和垂直方向的权重系数(ww和hh)。
2.2.1 NWD的基本形式
传统的NWD
公式为$$D=\sqrt{(x_c - x_c^{gt})^2 + (y_c - y_c^{gt})^2 + \frac{(w - w^{gt})^2 + (h - h^{gt})^2}{weight^2}}$$$$NWD = e^{-\frac{D}{C}}$$其中$(x_c, y_c)$和$(x_c^{gt}, y_c^{gt})$分别是预测框和GT box的中心点坐标,$w$和$h$是预测框的宽和高,$w^{gt}$和$h^{gt}$是GT box的宽和高,$weight$是与数据集相关的常数,$C$也是与数据集相关的常数。
2.2.2 Shape-NWD的定义
$$B=\frac{(w - w_{gt})^2+(h - h_{gt})^2}{weight^2}$$其中$weight = 2$。
$$D=\sqrt{h_{h}\times(x_{c}-x_{c}^{gt})^2 + w_{w}\times(y_{c}-y_{c}^{gt})^2 + B}$$
$$NW{D}_{shape}=e^{-\frac{D}{C}}$$
- 公式中(D)是一个综合的距离度量,$x{c}$和$y{c}$是预测框的中心点坐标,$x{c}^{gt}$和$y{c}^{gt}$是真实框的中心点坐标,$h{h}$和$w{w}$是与形状相关的系数,$w$和$h$是预测框的宽和高,$w{gt}$和$h{gt}$是真实框的宽和高)。
- $C$是一个与数据集相关的常数。
2.2.3 原理分析
- 首先,计算$D$时综合考虑了预测框和真实框在中心点坐标差异、宽高差异以及与形状相关的加权因素。$(x{c}-x{c}^{gt})^2$和$(y{c}-y{c}^{gt})^2$衡量了中心点的偏移,通过乘以$h{h}$和$w{w}$,使得在水平和垂直方向上可以根据形状因素对这种偏移进行不同程度的加权。例如,如果$h_{h}$较大,那么在垂直方向上的中心点偏移对$D$的贡献就会更大,这体现了对形状因素的考虑。
- $B$部分计算了宽高的差异,同样通过除以$weight^2$(这里$weight = 2$)进行了归一化处理,使得宽高差异在整个距离度量中具有合适的权重。
- 然后,$e^{-\frac{D}{C}}$这个指数形式的计算起到了归一化和强调差异的作用。当$D$越大(即预测框和真实框的差异越大)时,$-\frac{D}{C}$的值越小,$e^{-\frac{D}{C}}$的值就越接近0,这表示预测框和真实框在形状方面的匹配程度越低;反之,当$D$越小,$e^{-\frac{D}{C}}$的值越接近1,表示匹配程度越高。通过$C$这个与数据集相关的常数,可以根据数据集的特点调整这种对差异的敏感度。
2.3 优势体现
- 形状和尺度敏感性:由于在计算$D$时考虑了形状相关系数$h{h}$、$w{w}$以及宽高差异$B$,
Shape-NWD
能够有效捕捉边界框形状和尺度的变化。对于不同形状(如长条形和正方形)和尺度的边界框,它可以根据这些因素更准确地计算损失,避免了传统方法仅依赖于简单几何关系(如IoU)而忽略形状和尺度影响的问题。在小目标检测中,小目标的形状和尺度变化对检测结果影响较大,Shape-NWD
的这种敏感性能够更好地适应小目标的特性,提高小目标检测的准确性。 - 归一化处理:$e^{-\frac{D}{C}}$的形式对距离$D$进行了归一化,使得
Shape-NWD
的值域在一定范围内(0到1之间),便于在损失函数计算和模型训练中进行比较和优化。这种归一化有助于稳定模型训练过程,避免因距离度量值过大或过小而导致的梯度问题,提高模型的收敛速度和稳定性。 - 适应性与泛化能力:通过引入与数据集相关的常数$C$,
Shape-NWD
可以根据不同数据集的特点进行调整。不同数据集可能包含具有不同形状和尺度分布的目标,$C$的值可以根据数据集的统计特性进行优化,从而使Shape-NWD
在不同的目标检测任务中都能表现出较好的性能,具有较强的适应性和泛化能力。
论文:https://arxiv.org/pdf/2312.17663
源码:https://github.com/malagoutou/Shape-IoU
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: