IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架

简介: 训练一个高准确率的检测模型需要大量精细标注的图片数据,其成本很高。本文提出了一种弱监督协同学习框架,仅使用粗略标签的图片训练目标检测模型,测试结果显示其定位精确率和检测准确率均显著优于目前最先进的方法。

目标检测是机器视觉的基本问题,在视频监控、无人驾驶等场景都有广泛应用。随着深度学习的兴起,近年来涌现了大量优秀的目标检测模型。然而,训练一个高准确率的检测模型需要大量的以包围框形式精细标注的图片数据作为模型监督条件,需要花费大量的人力物力。

同时,我们可以从互联网轻松获取海量粗标注的图片,如利用Flickr的标签。因此,研究如何在弱监督条件下,即仅提供粗略图片类别标注,训练目标检测模型,具有重要的意义。已有学者探索了基于多示例学习构建弱监督条件下的目标检测模型学习方法,但是模型的精确度仍然难以令人满意。

论文:Collaborative Learning for Weakly Supervised Object Detection

7fa73c84124872f514479d31381b120bd0eb52bf

论文链接:https://arxiv.org/abs/1802.03531

本论文提出了一种弱监督协同学习(WSCL)的框架,将弱监督学习网络和强监督学习网络连接成为一个整体网络,通过一致性损失约束强监督和弱监督学习网络具有相似的预测结果,通过强监督和弱监督学习网络间部分特征共享保证两个网络在感知水平上的一致性,从而实现强监督和弱监督学习网络的协同增强学习。弱监督协同学习框架结构如下图所示:

fa668b4ac2c7c4798cf1afddec0320ef2cf44ad9

弱监督协同学习框架(以目标检测为例)

基于上述弱监督协同学习框架,论文设计了一个端到端的弱监督协同检测网络(WSCDN),弱监督和强监督的检测模块分别采用了目前最优秀WSDDNRCNN网络结构。其网络结构如下图所示。

c8743ae83b2a590690cab048ee984d5cd582cf8a

弱监督协同目标检测学习模型


在每次学习迭代中,整个目标检测网络只将图像级标签作为弱监督,并且通过预测一致性损失并行优化强监督和弱监督检测网络

下图是WSCDN训练时,强监督和弱监督检测网络准确率的变化曲线。

52634ee179a12cc569b2be83d3a73a9d1766fc8e

可以看出,在训练的初始阶段,弱监督检测网络准确率高于强监督检测网络。随着协同训练轮次的增多,两者的准确率均逐渐上升,但强监督检测网络提升的速度更快,并很快超越弱监督检测网络。在整个训练过程中,两类检测网络相互协同,达到了共同提高的效果。

我们比较了弱监督协同检测网络与其他相关弱监督检测方法在PASCAL VOC 2007测试图片上的效果(见下图)。其中,IW是单独训练得到的弱监督检测模型,CSS是分开迭代训练得到的强监督检测模型,CLWCLS分别是通过弱监督协同检测网络得到的强监督和弱监督检测网络。可以看出,我们的强监督检测网络明显优于其他检测器网络,表现在可以得到更全面和更紧凑的包围框预测。

0b61aac6bb3c87ec3ad008cb223a97556b4c0f46

我们用PASCAL VOC 2007和PASCAL VOC 2012数据集进行了测试。结果表明,弱监督协同检测网络的定位精确率以及检测准确率均显著优于目前最先进的方法

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 测试数据集上检测精确度的比较(AP) (%)

b8ad537388569f33931ff4da8011211cc16f26e4

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 trainval set 上定位精确度的比较(CorLoc) (%)

c43cdccadf7b5713586e24260443a4c9b73d8374

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 测试数据集上检测精确度的比较(AP) (%)

ff2704ab22919f6d4c34218922a2e815ac0d6a09

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 trainval set 上定位精确度的比较(CorLoc) (%)

b66f9d3858b71c729722af30e5f01fb733a3d03d

原文发布时间为:2018-05-14本文作者:上海交通大学未来媒体网络协同创新中心本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。原文链接: IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架
相关文章
|
4月前
|
人工智能 缓存 算法
为什么你学了那么多算法,代码性能还是“一塌糊涂”?
本文针对开发者普遍存在的“学了算法却写不出高性能代码”的痛点,提供了一套系统化的“算法优化AI指令”。该指令旨在引导开发者建立“分析-设计-验证”的工程化思维,通过结构化的提问框架,让AI成为辅助性能优化的“私人教练”,从而将零散的算法知识转化为体系化的实战能力。
251 7
|
运维 Cloud Native 关系型数据库
“瑶池”正式发布,一站式数据管理与服务
11月3日,在2022云栖大会上,阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞发表《一站式、全场景数据管理与服务》主题演讲,分享了数据库发展的四个核心趋势,并发布数据库独立品牌“瑶池”,将云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB (简称ADB)、云原生多模数据库Lindorm等产品统一归属到全新品牌“瑶池”。
2807 0
 “瑶池”正式发布,一站式数据管理与服务
|
1月前
|
存储 弹性计算 小程序
2026阿里云轻量应用服务器详解:免费试用、费用价格、200M带宽优势及问题解答FAQ
2026阿里云轻量应用服务器全面升级:新用户享1个月免费试用(2核1G/4G+200M带宽),国内套餐38元起/年,全系标配200M峰值带宽、不限流量、一键镜像。适合个人建站、小程序后端与开发测试,免备案香港版可选。
931 3
|
2月前
|
人工智能 自然语言处理 安全
免费的BI产品推荐(2026年最新版)
2026年,瓴羊Quick BI成免费BI首选:永久免费基础版+30天高级试用;零代码操作,支持Excel/MySQL等多源接入;内置“智能小Q”AI助手,自然语言秒出图表与归因分析;国产安全合规,适配中小企、创业者及一线业务人员。让数据决策真正零门槛。
|
4月前
|
人工智能 NoSQL 前端开发
面试真题
多套AI与Java技术面试题汇总,涵盖RAG、智能体、大模型部署、分布式系统、JVM调优、数据库设计等核心内容,深入考察候选人项目经验、架构设计及技术深度,适用于中高级工程师岗位选拔。
|
10月前
|
运维 安全 数据中心
云专线对于企业有什么优势?
云专线是一种为企业提供高速、安全网络连接的解决方案,基于物理专线或虚拟专用网络技术,整合运营商骨干资源,构建总部、分支、数据中心与云端间的专属通道。其三层架构(接入、传输、管理)确保稳定低延迟传输与智能化运维。相比传统网络,云专线具备带宽独享、多重加密、灵活组网、流量感知等优势,适用于实时交互、数据备份、跨地域协同等场景。企业在选型时需综合考虑带宽、延迟、安全性需求及成本因素,选择合适的技术伙伴。云专线已成为企业数字化转型的关键基础设施,助力全球布局与业务创新。
304 0
|
算法 程序员 Python
用伪代码表示算法
在算法设计和编程中,伪代码是一种非常重要的工具。它允许我们以一种既非特定编程语言又足够详细的方式来描述算法。伪代码的目标是提供一个清晰、简洁的算法表示,而不必拘泥于特定的编程语法或规则。本文将探讨伪代码的优势,并提供一个用伪代码表示算法的例子。
1202 1
|
机器学习/深度学习 人工智能 文字识别
AI计算机视觉笔记二十:PaddleOCR环境搭建及测试
OCR技术广泛应用于日常生活中,与人脸识别一样常见。PaddleOCR是一个基于飞桨的OCR工具库,具有超轻量级中文OCR模型,支持中英文数字组合、竖排及长文本识别。本文档详细介绍了PaddleOCR的学习过程,包括环境搭建、安装、样本标注及测试步骤。使用AutoDL云平台进行环境创建,并提供了详细的命令行操作指南,帮助用户顺利完成PaddleOCR的部署与测试。
1603 1
|
机器学习/深度学习 存储 自然语言处理
基于单机最高能效270亿参数GPT模型的文本生成与理解
针对GPT基础模型参数量大,训练&推理硬件资源消耗过高等问题,我们采用GPT+MoE的技术架构路线,探索单机最高能效的绿色低碳GPT大模型训练&推理软硬一体化适配技术在中文文本生成场景的落地可行性。
基于单机最高能效270亿参数GPT模型的文本生成与理解

热门文章

最新文章