全球最大的图像识别数据库ImageNet不行了?谷歌DeepMind新方法提升精度

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 来自苏黎世谷歌大脑和DeepMind London的研究人员认为,世界上最受欢迎的图像数据库之一ImageNet需要改造。ImageNet是一个无与伦比的计算机视觉数据集,拥有超过1400万张标记图像。它是为对象识别研究而设计的,并按照WordNet的层次结构进行组织。层次结构的每个节点都由成百上千的图像描述,目前每个节点平均有超过500个图像。

微信图片_20220109122650.jpg


将时间倒回15年前,2005年,还是一个被算法统治的年代。
 刚刚拿到加州理工电子工程学博士学位,到伊利诺伊州香槟分校担任教职的李飞飞敏锐的发现了「算法为王」的局限性,开始研究算法的基石:数据集。 


此后,全世界最大的图像识别数据集「ImageNet」诞生。 


ImageNet的出现,伴随着一个非常宏大的野心。


完整版ImageNet拥有超过1400多万幅图片,涉及2万多个类别标注,超百万边界标注。 2010年到2017年期间,围绕ImageNet共举办了8届 Large Scale Visual Recognition Challenge,包括图像分类,目标检测,目标定位单元。

   微信图片_20220109122653.png  

2017年,挑战赛完结。八年来,参赛选手将算法正确识别率从71.8%提升到97.3%,这样的精度甚至已经将我们人类自己都远远的甩在后面。


同时,也证明了数据集越大、效果越好。 近十年来,ImageNet一直是人工感知研究的核心测试平台,它的规模和难度凸显了机器学习领域的里程碑式成就。 


但Google和DeepMind的科学家却认为,已有的ImageNet有些落伍了。他们发现,原始的ImageNet标签不再是新标注的最佳预测者,已经被最近的高绩效模型系统性地超越了。


ImageNet标签出了哪些问题?


 每幅图像只有单一标签 


现实世界中的图像通常包含很多标签,但是ImageNet对每幅图像只分配了一个标签,这就导致图像内容的严重表达不足。比如下图第一行,每幅图只标记了一个物体,图中很多物体都被遗漏了。


  微信图片_20220109122655.png 

标签建议限制性过强 


ImageNet注释流程是在互联网上查询制定类的图像,然后询问人工评审员该类是否确实存在于当前图像中。 虽然这个过程会产生合理的图像描述,但也会导致不准确的情况。当单独考虑时,一个特定的标签建议,看起来可能是对图像的合理描述;然而当与其他ImageNet类一起考虑时,这种描述马上就显得不那么合适了。 比如上图中间一行第二个更准确的标注应该是「水瓶」,然而从单张图片来看,你说它是水桶也说得过去。最后一个其实是「校车」,但校车上的人,不论是学生还是老师,也都是passenger呀。 


分类时的消歧义 


例如最下一行中间,laptop的分类虽然是没错,但却忽略了notebook、Computor也同样可以指代同一个对象。如果我们能够将这些标签都用上,显然可以更精准的描述一个物体。 



新方法如何改进ImageNet的缺陷


 知道了症结所在,接下来就对症下药了。 


考虑到孤立地分配一个标签所产生的偏差,Google和DeepMind的研究团队设计了一个标签程序,它能捕获ImageNet数据集中内容的多样性和多重性。 并寻求一种范式,允许人类注释者同时评估一组不同的候选标签,又能保持proposal的数量足够小,以实现稳健的注释。


        微信图片_20220109122657.png      


在模型子集上进行穷尽式搜索,以找到一组能达到最高精度,同时保持97%以上的召回率的模型子集。 


在此基础上,科学家找到了一个6个模型的子集,它生成的标签proposal具有97.1%的召回率和28.3%的精度,将每个图像的平均proposal标签数从13个降低到7.4个。


从这个子集中,使用上述相同的规则,为整个验证集生成proposal标签。 在获得了整个验证集的新的候选标签集后,首先评估哪些图像需要由人工进行评估。


在所有模型都与原始ImageNet标签一致的情况下,就可以安全地保留原始标签而不需要人工重新评估,这样就将需要标注的图像数量就从50000张减少到24889张。 


进一步根据WordNet的层次结构,将超过8个标签建议的图像分成多个标签任务。


这就导致了37988个标签任务。 使用众包平台,将每个任务分配给5个独立的真人工标注者执行。 


实验效果


 下图是在ImageNet上,由Google和DeepMind科学家提出的sigmoid loss和clean label set的Top-1精度(百分比)。


微信图片_20220109122659.png    


可以看出,无论是sigmoid loss还是clean label set都比Benchmark优秀,而同时使用这两种方法获得了最好的性能。新方法在较长的训练计划下,其改进更为明显。 


但是在存在噪声数据的情况下,较长的训练计划可能是有害的,科学加期望清洗 ImageNet 训练集(或使用 sigmoid 损失)能在这种情况下产生额外的好处。 


在后续的实验中,科学家发现ReaL标签可以更正超过一半的ImageNet标签错误,这意味着ReaL标签提供了对模型准确性的更优越估计。


论文地址:https://arxiv.org/pdf/2006.07159.pdf

相关文章
|
13天前
|
存储 监控 安全
数据库多实例的部署与配置方法
【10月更文挑战第23天】数据库多实例的部署和配置需要综合考虑多个因素,包括硬件资源、软件设置、性能优化、安全保障等。通过合理的部署和配置,可以充分发挥多实例的优势,提高数据库系统的运行效率和可靠性。在实际操作中,要不断总结经验,根据实际情况进行调整和优化,以适应不断变化的业务需求。
|
3月前
|
存储 关系型数据库 MySQL
mysql数据库查询时用到的分页方法有哪些
【8月更文挑战第16天】在MySQL中,实现分页的主要方法包括:1)使用`LIMIT`子句,简单直接但随页数增加性能下降;2)通过子查询优化`LIMIT`分页,提高大页码时的查询效率;3)利用存储过程封装分页逻辑,便于复用但需额外维护;4)借助MySQL变量实现,可能提供更好的性能但实现较复杂。这些方法各有优缺点,可根据实际需求选择适用方案。
360 2
|
13天前
|
SQL Oracle 关系型数据库
Oracle数据库优化方法
【10月更文挑战第25天】Oracle数据库优化方法
23 7
|
1月前
|
SQL 关系型数据库 MySQL
Go语言项目高效对接SQL数据库:实践技巧与方法
在Go语言项目中,与SQL数据库进行对接是一项基础且重要的任务
50 11
|
1月前
|
SQL 数据库 数据库管理
数据库SQL函数应用技巧与方法
在数据库管理中,SQL函数是处理和分析数据的强大工具
|
2月前
|
消息中间件 关系型数据库 数据库
Python实时监测数据库表数据变化的方法
在实现时,需要考虑到应用的实时性需求、数据库性能影响以及网络延迟等因素,选择最适合的方法。每种方法都有其适用场景和限制,理解这些方法的原理和应用,将帮助开发者在实际项目中做出最合适的技术选择。
114 17
|
2月前
|
SQL 关系型数据库 MySQL
创建包含MySQL和SQLServer数据库所有字段类型的表的方法
创建一个既包含MySQL又包含SQL Server所有字段类型的表是一个复杂的任务,需要仔细地比较和转换数据类型。通过上述方法,可以在两个数据库系统之间建立起相互兼容的数据结构,为数据迁移和同步提供便利。这一过程不仅要考虑数据类型的直接对应,还要注意特定数据类型在不同系统中的表现差异,确保数据的一致性和完整性。
32 4
|
2月前
|
SQL 关系型数据库 MySQL
ThinkPHP6 连接使用数据库,增删改查,find,select,save,insert,insertAll,insertGetId,delete,update方法的用法
本文介绍了在ThinkPHP6框架中如何连接和使用数据库进行增删改查操作。内容包括配置数据库连接信息、使用Db类进行原生MySQL查询、find方法查询单个数据、select方法查询数据集、save方法添加数据、insertAll方法批量添加数据、insertGetId方法添加数据并返回自增主键、delete方法删除数据和update方法更新数据。此外,还说明了如何通过数据库配置文件进行数据库连接信息的配置,并强调了在使用Db类时需要先将其引入。
ThinkPHP6 连接使用数据库,增删改查,find,select,save,insert,insertAll,insertGetId,delete,update方法的用法
|
30天前
|
SQL 存储 监控
串口调试助手连接SQL数据库的技巧与方法
串口调试助手是电子工程师和软件开发人员常用的工具,它能够帮助用户进行串口通信的调试和数据分析
|
1月前
|
Java API 数据库
Data jpa 增删改查的方法分别有哪些
Data jpa 增删改查的方法分别有哪些