YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性

简介: YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性

一、本文介绍

本文记录的是改进YOLOv11的损失函数,将其替换成Shape-NWDShape-NWD是一种用于目标检测中边界框回归的方法,它是在Shape-IoUNWD(Normalized Wasserstein Distance)的基础上进行改进的,主要为了更好地处理边界框回归中形状和尺度因素对回归结果的影响,特别是在小目标检测任务中。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Shape-NWD设计原理

Shape-NWD是一种用于目标检测中边界框回归的方法,它是在Shape-IoUNWD(Normalized Wasserstein Distance)的基础上进行改进的,主要为了更好地处理边界框回归中形状和尺度因素对回归结果的影响,特别是在小目标检测任务中。

以下是关于Shape-NWD的详细介绍:

2.1 出发点

  1. 现有方法的局限性:传统的基于IoU的边界框回归方法(如IoU、GIoU、CIoU等)在计算损失时,主要考虑预测框和真实框(GT box)之间的几何关系,如重叠面积、中心点距离等,但忽略了边界框自身形状和尺度对回归结果的影响。在小目标检测场景下,这些方法对IoU值的敏感性问题更加突出
  2. 小目标检测的需求小目标在图像中所占像素较少,其特征相对不明显,使得准确检测小目标变得更加困难。因此,需要一种能够更精准地描述小目标边界框回归损失的方法,以提高小目标检测的性能。
  3. 形状和尺度因素的重要性:通过对边界框回归特性的分析发现,回归样本中边界框的形状和尺度差异会导致在相同偏差情况下IoU值的不同。对于小尺度边界框,其形状和偏差对IoU值的影响更为显著。因此,在设计小目标检测的边界框回归损失函数时,有必要考虑形状和尺度因素。

2.2 原理

基于Shape-IoU的改进Shape-NWDShape-IoU的思想融入到NWD中。Shape-IoU在计算损失时引入了与目标尺度相关的尺度因子(scale)以及与GT box 形状相关的水平和垂直方向的权重系数(ww和hh)。

2.2.1 NWD的基本形式

传统的NWD公式为$$D=\sqrt{(x_c - x_c^{gt})^2 + (y_c - y_c^{gt})^2 + \frac{(w - w^{gt})^2 + (h - h^{gt})^2}{weight^2}}$$$$NWD = e^{-\frac{D}{C}}$$其中$(x_c, y_c)$和$(x_c^{gt}, y_c^{gt})$分别是预测框和GT box的中心点坐标,$w$和$h$是预测框的宽和高,$w^{gt}$和$h^{gt}$是GT box的宽和高,$weight$是与数据集相关的常数,$C$也是与数据集相关的常数。

2.2.2 Shape-NWD的定义

$$B=\frac{(w - w_{gt})^2+(h - h_{gt})^2}{weight^2}$$其中$weight = 2$。
$$D=\sqrt{h_{h}\times(x_{c}-x_{c}^{gt})^2 + w_{w}\times(y_{c}-y_{c}^{gt})^2 + B}$$
$$NW{D}_{shape}=e^{-\frac{D}{C}}$$

  • 公式中(D)是一个综合的距离度量,$x{c}$和$y{c}$是预测框的中心点坐标,$x{c}^{gt}$和$y{c}^{gt}$是真实框的中心点坐标,$h{h}$和$w{w}$是与形状相关的系数,$w$和$h$是预测框的宽和高,$w{gt}$和$h{gt}$是真实框的宽和高)。
  • $C$是一个与数据集相关的常数。

2.2.3 原理分析

  1. 首先,计算$D$时综合考虑了预测框和真实框在中心点坐标差异宽高差异以及与形状相关的加权因素。$(x{c}-x{c}^{gt})^2$和$(y{c}-y{c}^{gt})^2$衡量了中心点的偏移,通过乘以$h{h}$和$w{w}$,使得在水平和垂直方向上可以根据形状因素对这种偏移进行不同程度的加权。例如,如果$h_{h}$较大,那么在垂直方向上的中心点偏移对$D$的贡献就会更大,这体现了对形状因素的考虑。
  2. $B$部分计算了宽高的差异,同样通过除以$weight^2$(这里$weight = 2$)进行了归一化处理,使得宽高差异在整个距离度量中具有合适的权重
  3. 然后,$e^{-\frac{D}{C}}$这个指数形式的计算起到了归一化强调差异的作用。当$D$越大(即预测框和真实框的差异越大)时,$-\frac{D}{C}$的值越小,$e^{-\frac{D}{C}}$的值就越接近0,这表示预测框和真实框在形状方面的匹配程度越低;反之,当$D$越小,$e^{-\frac{D}{C}}$的值越接近1,表示匹配程度越高。通过$C$这个与数据集相关的常数,可以根据数据集的特点调整这种对差异的敏感度。

2.3 优势体现

  • 形状和尺度敏感性:由于在计算$D$时考虑了形状相关系数$h{h}$、$w{w}$以及宽高差异$B$,Shape-NWD能够有效捕捉边界框形状和尺度的变化。对于不同形状(如长条形和正方形)和尺度的边界框,它可以根据这些因素更准确地计算损失,避免了传统方法仅依赖于简单几何关系(如IoU)而忽略形状和尺度影响的问题。在小目标检测中,小目标的形状和尺度变化对检测结果影响较大,Shape-NWD的这种敏感性能够更好地适应小目标的特性,提高小目标检测的准确性。
  • 归一化处理:$e^{-\frac{D}{C}}$的形式对距离$D$进行了归一化,使得Shape-NWD的值域在一定范围内(0到1之间),便于在损失函数计算和模型训练中进行比较和优化。这种归一化有助于稳定模型训练过程避免因距离度量值过大或过小而导致的梯度问题,提高模型的收敛速度和稳定性。
  • 适应性与泛化能力:通过引入与数据集相关的常数$C$,Shape-NWD可以根据不同数据集的特点进行调整。不同数据集可能包含具有不同形状和尺度分布的目标,$C$的值可以根据数据集的统计特性进行优化,从而使Shape-NWD在不同的目标检测任务中都能表现出较好的性能,具有较强的适应性和泛化能力。

论文:https://arxiv.org/pdf/2312.17663
源码:https://github.com/malagoutou/Shape-IoU


三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143623947

目录
相关文章
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171369 16
|
2天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
1593 95
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150306 32
|
9天前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
7578 85
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
10天前
|
人工智能 自然语言处理 Java
Spring AI,搭建个人AI助手
本期主要是实操性内容,聊聊AI大模型,并使用Spring AI搭建属于自己的AI助手、知识库。本期所需的演示源码笔者托管在Gitee上(https://gitee.com/catoncloud/spring-ai-demo),读者朋友可自行查阅。
925 41
Spring AI,搭建个人AI助手
|
2月前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201990 15
对话 | ECS如何构筑企业上云的第一道安全防线
|
2天前
|
机器学习/深度学习 人工智能 并行计算
一文了解火爆的DeepSeek R1 | AIGC
DeepSeek R1是由DeepSeek公司推出的一款基于强化学习的开源推理模型,无需依赖监督微调或人工标注数据。它在数学、代码和自然语言推理任务上表现出色,具备低成本、高效率和多语言支持等优势,广泛应用于教育辅导、金融分析等领域。DeepSeek R1通过长链推理、多语言支持和高效部署等功能,显著提升了复杂任务的推理准确性,并且其创新的群体相对策略优化(GRPO)算法进一步提高了训练效率和稳定性。此外,DeepSeek R1的成本低至OpenAI同类产品的3%左右,为用户提供了更高的性价比。
706 10
|
12天前
|
人工智能 JavaScript 前端开发
白嫖 DeepSeek ,低代码竟然会一键作诗?
宜搭低代码平台接入 DeepSeek AI 大模型能力竟然这么方便!本教程将揭秘宜搭如何快速接入 DeepSeek API,3 步打造专属作诗机器人,也许你还能开发出更多有意思的智能玩法,让创意在代码间自由生长。
1551 13
|
10天前
|
Linux iOS开发 MacOS
DeepSeek爆火,如何免费部署到你的电脑上?获取顶级推理能力教程来了
如何在本地电脑上免费部署DeepSeek,获取顶级推理能力?只需三步:1. 访问Ollama官网下载并安装对应操作系统的版本(支持macOS、Linux和Windows)。2. 打开Ollama并确保其正常运行。3. 在Ollama官网搜索并选择DeepSeek模型(如deepseek-r1),根据电脑配置选择合适的模型大小(1.5B至671B)。通过终端命令(如ollama run deepseek-r1:1.5b)运行模型,即可开始使用DeepSeek进行推理。退出模型时,在终端输入/bye。更多详情请参考Ollama官方文档。