IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架

简介: 训练一个高准确率的检测模型需要大量精细标注的图片数据,其成本很高。本文提出了一种弱监督协同学习框架,仅使用粗略标签的图片训练目标检测模型,测试结果显示其定位精确率和检测准确率均显著优于目前最先进的方法。

目标检测是机器视觉的基本问题,在视频监控、无人驾驶等场景都有广泛应用。随着深度学习的兴起,近年来涌现了大量优秀的目标检测模型。然而,训练一个高准确率的检测模型需要大量的以包围框形式精细标注的图片数据作为模型监督条件,需要花费大量的人力物力。

同时,我们可以从互联网轻松获取海量粗标注的图片,如利用Flickr的标签。因此,研究如何在弱监督条件下,即仅提供粗略图片类别标注,训练目标检测模型,具有重要的意义。已有学者探索了基于多示例学习构建弱监督条件下的目标检测模型学习方法,但是模型的精确度仍然难以令人满意。

论文:Collaborative Learning for Weakly Supervised Object Detection

7fa73c84124872f514479d31381b120bd0eb52bf

论文链接:https://arxiv.org/abs/1802.03531

本论文提出了一种弱监督协同学习(WSCL)的框架,将弱监督学习网络和强监督学习网络连接成为一个整体网络,通过一致性损失约束强监督和弱监督学习网络具有相似的预测结果,通过强监督和弱监督学习网络间部分特征共享保证两个网络在感知水平上的一致性,从而实现强监督和弱监督学习网络的协同增强学习。弱监督协同学习框架结构如下图所示:

fa668b4ac2c7c4798cf1afddec0320ef2cf44ad9

弱监督协同学习框架(以目标检测为例)

基于上述弱监督协同学习框架,论文设计了一个端到端的弱监督协同检测网络(WSCDN),弱监督和强监督的检测模块分别采用了目前最优秀WSDDNRCNN网络结构。其网络结构如下图所示。

c8743ae83b2a590690cab048ee984d5cd582cf8a

弱监督协同目标检测学习模型


在每次学习迭代中,整个目标检测网络只将图像级标签作为弱监督,并且通过预测一致性损失并行优化强监督和弱监督检测网络

下图是WSCDN训练时,强监督和弱监督检测网络准确率的变化曲线。

52634ee179a12cc569b2be83d3a73a9d1766fc8e

可以看出,在训练的初始阶段,弱监督检测网络准确率高于强监督检测网络。随着协同训练轮次的增多,两者的准确率均逐渐上升,但强监督检测网络提升的速度更快,并很快超越弱监督检测网络。在整个训练过程中,两类检测网络相互协同,达到了共同提高的效果。

我们比较了弱监督协同检测网络与其他相关弱监督检测方法在PASCAL VOC 2007测试图片上的效果(见下图)。其中,IW是单独训练得到的弱监督检测模型,CSS是分开迭代训练得到的强监督检测模型,CLWCLS分别是通过弱监督协同检测网络得到的强监督和弱监督检测网络。可以看出,我们的强监督检测网络明显优于其他检测器网络,表现在可以得到更全面和更紧凑的包围框预测。

0b61aac6bb3c87ec3ad008cb223a97556b4c0f46

我们用PASCAL VOC 2007和PASCAL VOC 2012数据集进行了测试。结果表明,弱监督协同检测网络的定位精确率以及检测准确率均显著优于目前最先进的方法

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 测试数据集上检测精确度的比较(AP) (%)

b8ad537388569f33931ff4da8011211cc16f26e4

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 trainval set 上定位精确度的比较(CorLoc) (%)

c43cdccadf7b5713586e24260443a4c9b73d8374

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 测试数据集上检测精确度的比较(AP) (%)

ff2704ab22919f6d4c34218922a2e815ac0d6a09

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 trainval set 上定位精确度的比较(CorLoc) (%)

b66f9d3858b71c729722af30e5f01fb733a3d03d

原文发布时间为:2018-05-14本文作者:上海交通大学未来媒体网络协同创新中心本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。原文链接: IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架
相关文章
|
2月前
|
人工智能 缓存 算法
为什么你学了那么多算法,代码性能还是“一塌糊涂”?
本文针对开发者普遍存在的“学了算法却写不出高性能代码”的痛点,提供了一套系统化的“算法优化AI指令”。该指令旨在引导开发者建立“分析-设计-验证”的工程化思维,通过结构化的提问框架,让AI成为辅助性能优化的“私人教练”,从而将零散的算法知识转化为体系化的实战能力。
217 7
|
机器学习/深度学习 人工智能 文字识别
AI计算机视觉笔记二十:PaddleOCR环境搭建及测试
OCR技术广泛应用于日常生活中,与人脸识别一样常见。PaddleOCR是一个基于飞桨的OCR工具库,具有超轻量级中文OCR模型,支持中英文数字组合、竖排及长文本识别。本文档详细介绍了PaddleOCR的学习过程,包括环境搭建、安装、样本标注及测试步骤。使用AutoDL云平台进行环境创建,并提供了详细的命令行操作指南,帮助用户顺利完成PaddleOCR的部署与测试。
1435 1
|
测试技术
CR的最佳实践问题之CR(代码审查)在代码质量方面的问题如何解决
CR的最佳实践问题之CR(代码审查)在代码质量方面的问题如何解决
157 0
|
机器学习/深度学习 存储 自然语言处理
基于单机最高能效270亿参数GPT模型的文本生成与理解
针对GPT基础模型参数量大,训练&推理硬件资源消耗过高等问题,我们采用GPT+MoE的技术架构路线,探索单机最高能效的绿色低碳GPT大模型训练&推理软硬一体化适配技术在中文文本生成场景的落地可行性。
基于单机最高能效270亿参数GPT模型的文本生成与理解
|
缓存 前端开发 Java
想成为一名顶尖Java开发工程师?这些优化手段一定要掌握!(七)
想成为一名顶尖Java开发工程师?这些优化手段一定要掌握!
278 0
|
安全 Windows
windows更新常用排查方案
windows更新常用排查方案分享
windows更新常用排查方案
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32332 118
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6861 18
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手

热门文章

最新文章