CVPR 2024 目标检测！开放词汇

2025-11-18 136

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLO-World是CVPR 2024提出的一种实时开放词汇目标检测模型，首次将YOLO的高速特性与开放词汇识别能力结合。它无需微调即可通过文本提示检测任意物体，支持零样本推理，兼具高精度与灵活性，适用于机器人、自动驾驶等实时感知场景，标志着目标检测迈向通用化新阶段。

CVPR 2024 目标检测！开放词汇

01 论文概述

论文名称：YOLO-World: Real-Time Open-Vocabulary Object Detection

会议名称：CVPR （2024）

👉一键直达论文

👉Lab4AI大模型实验室论文

🌟简介

在相当长的一段时间里，目标检测领域存在一个核心的权衡：要么选择像 YOLO 系列那样拥有极致速度但只能识别固定类别的“闭集”检测器，要么选择像 Grounding DINO 那样能够识别任意文本描述但速度较慢的“开放集”检测器。对于需要实时响应和灵活性的现实世界应用（如机器人、自动驾驶），这一直是个难题。

于2024年初发布的 YOLO-World 彻底打破了这一局面。该研究首次成功地将开放词汇（Open-Vocabulary）能力与以速度著称的 YOLO 架构进行了深度融合。YOLO-World 能够在不需要为新类别进行任何训练的情况下，实时地检测由任意文本描述的物体。它的问世，标志着目标检测技术进入了一个兼具速度、灵活性和强大泛化能力的新纪元，并已成为后续实时通用感知系统的关键基石。

🔍 优势

实时开放词汇检测

YOLO-World 的标志性贡献。它在保持 YOLO 系列无与伦比的推理速度的同时，实现了对任意文本提示的零样本检测能力，完美解决了速度与灵活性的核心矛盾。
强大的零样本性能

通过在大规模图文数据集上进行预训练，YOLO-World 能够直接检测从未见过的物体类别，表现出卓越的泛化能力，极大地拓宽了其应用场景。
灵活高效的部署

模型支持“在线”和“离线”两种词汇表模式。在线模式可以动态接收文本提示，灵活性最高；离线模式则可以将词汇表预先编译进模型，实现极致的推理速度，方便生产环境部署。
继承YOLO生态

建立在成熟的 YOLO 架构之上，使其能够轻松地被社区和行业接受，并方便地集成到现有的、为 YOLO 优化的部署流程和硬件加速方案中。

🛠️ 核心技术

可提示的YOLO架构 (Promptable YOLO Architecture)

模型的核心是一个经过改造的 YOLO 检测器。它引入了一个轻量级的文本编码器来处理输入文本，并将文本特征高效地注入到检测流程中，使得整个模型可以被语言动态“编程”。
区域-文本对比学习预训练 (Region-Text Contrastive Pre-training)

YOLO-World 在大规模的视觉定位（Grounding）数据集上进行预训练。其核心目标是让模型学习到将图像中任意一个对象区域的视觉特征，与描述该对象的文本特征进行精确对齐。
视觉-语言路径聚合网络 (Vision-Language Path Aggregation Network - VL-PAN)

为了在保持速度的同时实现有效的跨模态融合，作者设计了 VL-PAN。它能够在 YOLO 的特征金字塔（FPN/PAN）结构中，以极小的计算开销，将文本特征与多尺度的视觉特征进行深度交互。
解耦的检测头与类别无关嵌入 (Decoupled Head with Class-Agnostic Embedding)

模型的检测头被设计为类别无关的，它不直接预测固定的类别ID，而是预测一个“物体存在度”和该物体的视觉嵌入向量。最终的分类通过计算此视觉嵌入与用户提供词汇的文本嵌入之间的相似度来完成。

02 论文原文阅读

您可以跳转到Lab4AI.cn上进行查看。👉Lab4AI大模型实验室论文复现

Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读；
支持投稿复现，动手复现感兴趣的论文；
论文复现完成后，您可基于您的思路和想法，开启论文创新。

03 一键式论文复现

Lab4AI平台上已上架了此篇复现案例，登录平台即可体验论文复现。

👉Lab4AI项目复现

🛠️ 实验部署

本实验环境已为您精心配置，开箱即用。

💻 代码获取：项目复现代码已存放于 /codelab/YOLO-World/code 文件夹中。
🧠 模型说明：/codelab/YOLO-World/model 文件夹中存放了 YOLO-World 的预训练模型权重。
📊 数据说明：/codelab/YOLO-World/dataset 文件夹中包含了用于实验的示例图像和提示词。
🌐 环境说明：运行所需的所有依赖已预安装在 /envs/yoloworld/ 环境中，您无需进行任何额外的环境配置。

🚀 环境与内核配置

请在终端中执行以下步骤，以确保您的开发环境（如 Jupyter 或 VS Code）能够正确使用预设的 Conda 环境。

1. 在 Jupyter Notebook/Lab 中使用您的环境

为了让Jupyter能够识别并使用您刚刚创建的Conda环境，您需要为其注册一个“内核”。
首先，在您已激活的Conda环境中，安装 ipykernel 包：
```
  conda activate yoloworld
  pip install ipykernel
```

然后，执行内核注册命令。

  #为名为 yoloworld 的环境注册一个名为 "Python(yoloworld)" 的内核
  kernel_install --name yoloworld --display-name "Python(yoloworld)"

完成以上操作后，刷新您项目中的Jupyter Notebook页面。在右上角的内核选择区域，您现在应该就能看到并选择您刚刚创建的 "Python(yoloworld)" 内核了。

2. 在 VS Code 中使用您的环境

VS Code 可以自动检测到您新创建的Conda环境，切换过程非常快捷。
第一步: 选择 Python 解释器
- 确保VS Code中已经安装了官方的 Python 扩展。
- 使用快捷键 Ctrl+Shift+P (Windows/Linux) 或 Cmd+Shift+P (macOS) 打开命令面板。
- 输入并选择 Python: Select Interpreter。
第二步: 选择您的 Conda 环境
- 在弹出的列表中，找到并点击您刚刚创建的环境（名为 yoloworld 的 Conda 环境）。
- 选择后，VS Code 窗口右下角的状态栏会显示 yoloworld，表示切换成功。此后，当您在 VS Code 中打开 Jupyter Notebook (.ipynb) 文件时，它会自动或推荐您使用此环境的内核。

CVPR 2024 目标检测！开放词汇

CVPR 2024 目标检测！开放词汇

01 论文概述

🌟简介