IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架

简介: 训练一个高准确率的检测模型需要大量精细标注的图片数据,其成本很高。本文提出了一种弱监督协同学习框架,仅使用粗略标签的图片训练目标检测模型,测试结果显示其定位精确率和检测准确率均显著优于目前最先进的方法。

目标检测是机器视觉的基本问题,在视频监控、无人驾驶等场景都有广泛应用。随着深度学习的兴起,近年来涌现了大量优秀的目标检测模型。然而,训练一个高准确率的检测模型需要大量的以包围框形式精细标注的图片数据作为模型监督条件,需要花费大量的人力物力。

同时,我们可以从互联网轻松获取海量粗标注的图片,如利用Flickr的标签。因此,研究如何在弱监督条件下,即仅提供粗略图片类别标注,训练目标检测模型,具有重要的意义。已有学者探索了基于多示例学习构建弱监督条件下的目标检测模型学习方法,但是模型的精确度仍然难以令人满意。

论文:Collaborative Learning for Weakly Supervised Object Detection

7fa73c84124872f514479d31381b120bd0eb52bf

论文链接:https://arxiv.org/abs/1802.03531

本论文提出了一种弱监督协同学习(WSCL)的框架,将弱监督学习网络和强监督学习网络连接成为一个整体网络,通过一致性损失约束强监督和弱监督学习网络具有相似的预测结果,通过强监督和弱监督学习网络间部分特征共享保证两个网络在感知水平上的一致性,从而实现强监督和弱监督学习网络的协同增强学习。弱监督协同学习框架结构如下图所示:

fa668b4ac2c7c4798cf1afddec0320ef2cf44ad9

弱监督协同学习框架(以目标检测为例)

基于上述弱监督协同学习框架,论文设计了一个端到端的弱监督协同检测网络(WSCDN),弱监督和强监督的检测模块分别采用了目前最优秀WSDDNRCNN网络结构。其网络结构如下图所示。

c8743ae83b2a590690cab048ee984d5cd582cf8a

弱监督协同目标检测学习模型


在每次学习迭代中,整个目标检测网络只将图像级标签作为弱监督,并且通过预测一致性损失并行优化强监督和弱监督检测网络

下图是WSCDN训练时,强监督和弱监督检测网络准确率的变化曲线。

52634ee179a12cc569b2be83d3a73a9d1766fc8e

可以看出,在训练的初始阶段,弱监督检测网络准确率高于强监督检测网络。随着协同训练轮次的增多,两者的准确率均逐渐上升,但强监督检测网络提升的速度更快,并很快超越弱监督检测网络。在整个训练过程中,两类检测网络相互协同,达到了共同提高的效果。

我们比较了弱监督协同检测网络与其他相关弱监督检测方法在PASCAL VOC 2007测试图片上的效果(见下图)。其中,IW是单独训练得到的弱监督检测模型,CSS是分开迭代训练得到的强监督检测模型,CLWCLS分别是通过弱监督协同检测网络得到的强监督和弱监督检测网络。可以看出,我们的强监督检测网络明显优于其他检测器网络,表现在可以得到更全面和更紧凑的包围框预测。

0b61aac6bb3c87ec3ad008cb223a97556b4c0f46

我们用PASCAL VOC 2007和PASCAL VOC 2012数据集进行了测试。结果表明,弱监督协同检测网络的定位精确率以及检测准确率均显著优于目前最先进的方法

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 测试数据集上检测精确度的比较(AP) (%)

b8ad537388569f33931ff4da8011211cc16f26e4

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 trainval set 上定位精确度的比较(CorLoc) (%)

c43cdccadf7b5713586e24260443a4c9b73d8374

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 测试数据集上检测精确度的比较(AP) (%)

ff2704ab22919f6d4c34218922a2e815ac0d6a09

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 trainval set 上定位精确度的比较(CorLoc) (%)

b66f9d3858b71c729722af30e5f01fb733a3d03d

原文发布时间为:2018-05-14本文作者:上海交通大学未来媒体网络协同创新中心本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。原文链接: IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架
相关文章
|
5月前
|
人工智能 缓存 算法
为什么你学了那么多算法,代码性能还是“一塌糊涂”?
本文针对开发者普遍存在的“学了算法却写不出高性能代码”的痛点,提供了一套系统化的“算法优化AI指令”。该指令旨在引导开发者建立“分析-设计-验证”的工程化思维,通过结构化的提问框架,让AI成为辅助性能优化的“私人教练”,从而将零散的算法知识转化为体系化的实战能力。
307 7
|
2月前
|
自然语言处理 安全 数据安全/隐私保护
2026年阿里云无影云电脑及本地部署OpenClaw(Clawdbot)与Skills集成保姆级教程
OpenClaw(原Clawdbot,曾用名MoltBot)作为2026年开源AI自动化代理领域的核心工具,凭借本地优先、系统级权限调用、可扩展性强的特性,成为个人办公自动化、开发辅助、轻量团队协作的优选方案。其核心价值在于通过集成各类Skills(技能插件)突破基础功能边界,实现从自然语言指令到实际操作的全链路自动化,无需复杂代码开发,零基础用户也能快速上手。
834 3
|
5月前
|
人工智能 NoSQL 前端开发
面试真题
多套AI与Java技术面试题汇总,涵盖RAG、智能体、大模型部署、分布式系统、JVM调优、数据库设计等核心内容,深入考察候选人项目经验、架构设计及技术深度,适用于中高级工程师岗位选拔。
|
9月前
|
JSON 搜索推荐 API
利用快手电商 API 接口,实现快手小店商品价格区间精准定位
在快手电商中,通过调用API获取商品数据,并利用统计方法(如四分位数)精准划分价格区间,可优化选品策略、提升转化率。结合Python实现,助力电商智能化运营。
466 0
|
缓存 监控 网络协议
面对ARP攻击,怎么做好主机安全,受到ARP攻击有哪些解决方案
ARP攻击的具体原理主要是基于ARP(Address Resolution Protocol,地址解析协议)的漏洞进行欺骗和攻击。ARP协议是TCP/IP协议族中的一个重要协议,用于实现IP地址到MAC地址的映射。然而,由于ARP协议在设计时缺乏必要的安全验证机制,使得攻击者有机会进行欺骗和攻击。
|
人工智能 达摩院 算法
什么是优化技术?给算法小白同学的快速讲解和上手文
本文作者用一个曾经小白学习的视角,来讲解什么是优化问题,以及要如何用这个优化技术。
48727 59
|
机器学习/深度学习 人工智能 文字识别
AI计算机视觉笔记二十:PaddleOCR环境搭建及测试
OCR技术广泛应用于日常生活中,与人脸识别一样常见。PaddleOCR是一个基于飞桨的OCR工具库,具有超轻量级中文OCR模型,支持中英文数字组合、竖排及长文本识别。本文档详细介绍了PaddleOCR的学习过程,包括环境搭建、安装、样本标注及测试步骤。使用AutoDL云平台进行环境创建,并提供了详细的命令行操作指南,帮助用户顺利完成PaddleOCR的部署与测试。
1761 1
|
网络协议 网络架构
OSPF特殊区域
OSPF特殊区域
|
机器学习/深度学习 存储 自然语言处理
基于单机最高能效270亿参数GPT模型的文本生成与理解
针对GPT基础模型参数量大,训练&推理硬件资源消耗过高等问题,我们采用GPT+MoE的技术架构路线,探索单机最高能效的绿色低碳GPT大模型训练&推理软硬一体化适配技术在中文文本生成场景的落地可行性。
基于单机最高能效270亿参数GPT模型的文本生成与理解

热门文章

最新文章