雷锋网(公众号:雷锋网)AI科技评论按:计算机视觉领域权威评测ImageNet大规模图像识别挑战赛(Large Scale Visual Recognition Challenge)自2010年开始举办以来,一直备受关注。2016年,在该比赛的图像目标检测任务中,国内队伍大放异彩,包揽该任务前五名,而在今年的 ILSVRC 2017,多个国内院校和企业在各个比赛项目上同样取得了非常不错的成绩。
雷锋网了解到,今年挑战赛共分为三大部分,包括:物体检测(识别)、物体定位、视频中目标物体检测。在昨天,大赛公布了算法排名结果,奇虎和南京信息工程大学团队分别在物体定位和物体检测项目上取得了最佳成绩。国内自动驾驶公司Momenta 研发团队(WMW)的孙刚和胡杰与来自牛津大学的申丽合作,提出SE架构,以2.3%的识别错误率荣获物体识别冠军。
奇虎360团队
奇虎360和新加坡国立大学组队,成立NUS-Qihoo_DPNs (DET)团队。
奇虎360成员: Jian Dong, 颜水成。
新加坡国立大学成员:Yunchao Wei, Mengdan Zhang, Jianan Li, Yunpeng Chen, Jiashi Feng。
他们在基于 Faster R-CNN 的目标检测任务中,采用了一个包含全新双路径拓扑的双路径网络(DPN/Dual Path Network)。DPN 中的特征共享机制和探索新特征的灵活性在目标检测中被证明有效。研究人员还采用了若干个 DPN 模型,即 DPN-92、DPN-107、DPN-131 等,作为 Faster R-CNN 框架中的中继特征学习器(trunk feature learner)和头分类器(head classifier)。他们只使用最多 131 层的网络,因为在大多数常用的 GPU 内,它易于训练和适应,且性能良好。对于区域提案生成,利用低级细粒度特征取得了有效的 proposals 召回。进而,通过在分割成检测框架中采用扩展卷积,他们合并了有益的语境信息。在测试期间,他们设计了一个类别加权策略,以探索不同类别的专家模型,并根据多任务推断把权重用到不同的专家。除此之外,他们在图像分类任务中采用了预训练的模型以提取整体语境信息,这可在整体输入图像中为探测结果的推理提供有益的线索。
南京信息工程大学团队
南京信息工程大学与帝国理工大学搭档,成立BDAT团队,在第一轮用提供的的训练数据进行物体检测,前三名都被BDAT团队拿下。
南京信息工程大学成员:Hui Shuai、Zhenbo Yu、Qingshan Liu、 Xiaotong Yuan、Kaihua Zhang、Yisheng Zhu、Guangcan Liu 和 Jing Yang
帝国理工学院成员:Yuxiang Zhou、Jiankang Deng
该团队表示他们在 LOC 任务中使用了适应性注意力机制和深度联合卷积模型 。Scale、context、采样和深度联合卷积网络在 DET 任务中得到了有效的使用。同时他们的得分排名也使用了物体概率估计。
自动驾驶技术Momenta团队
国内自动驾驶技术公司Momenta 研发团队的孙刚和胡杰与来自牛津大学的申丽合作,组成WMW团队。
WMW团队提出了一种新的机制称为Squeeze & Excitation(简称SE),以此来大幅提升模型的精度。它通过引入全局图像的信息自动对卷积特征重新分配权重,增强对分类有用的特征,而抑制无效或收益甚微的特征。在只引入极少的计算量和参数量的情况下,可以将现有的绝大多数CNN的性能进行大幅提升。团队成员之一孙刚表示,“这个框架下计算量与ResNet50 相当的网络可以达到ResNet101 的性能。
接下来是分别对所有参赛团队进行物体检测(识别)、物体定位、视频中目标物体检测技术的评测。
物体检测(识别)
a:使用提供的训练数据进行目标检测表现
一,根据检测出的目标数量排序
二,根据检测的平均准确率排序
小结:在给定的训练数据,南京信息工程大学团队BDAT在两次排名中都名列第一。所以在物体检测上BDAT更胜一筹。
b:使用额外的训练数据进行目标检测(图一检测出的目标数量排序,图二检测的平均准确率排序)
图一
图二
小结:BDAT团队在额外的训练数据进行目标检测,依然是占据前两名。第三名是奇虎360团队,在目标检测任务中也表现良好。
物体定位
a: 使用提供的训练数据进行分类+定位:以定位错误率排序,错误率低的靠前
以分类错误率排名(错误率低的靠前)
奇虎360团队在定位错误率上排名第一,也就是说定位最准确,错误率仅为0.062263。这归结于360和新加坡国立大学共同提出了一个包含全新双路径拓扑的双路径网络(DPN/Dual Path Network)。第二名、第三名则是来自 Trimps-Soushen(公安部三所)。
而从分类误差率的排名来看,自动驾驶技术Momenta团队的分类错误率最低,他们WMW团队提出了一种新的机制称为Squeeze & Excitation(简称SE),大幅度提升了模型的精度。
b: 在接下来使用额外数据来进行分类和定位的任务中,奇虎360团队,两次排名的错误率都是最低,其次是南京信息工程大学团队BDAT。
视频目标检测
a: 使用提供的训练数据进行视频目标检测(分别根据检测出来的目标种类和平均精准度排名)
在这场测试中,只有奇虎360团队表现相对不错,而南京信息工程大学团队和Momenta团队都没有进入前五名,第一名是由来自帝国理工学院和悉尼大学所组成的 IC&USYD 团队获得。奇虎360团队在视频目标检测任务中表现优异是因为他们的模型主要是基于 Faster R-CNN 并使用双路径网络作为支柱,采用了三种 DPN 模型(即 DPN-96、DPN-107 和 DPN-131)和 Faster R-CNN 框架下的顶部分类器作为特征学习器。
b: 使用额外的训练数据进行视频目标检测
使用额外的训练数据进行视频目标检测和使用提供的训练数据检测,效果差不多,依然是帝国理工学院和悉尼大学团队IC&USYD取得的成绩最好,其次是奇虎360团队。
雷锋网小结:ILSVRC 2017是ImageNet 竞赛的最后一次,中国代表团体在最后的这场比赛中,依然赛出了自己的水平,没有留下遗憾。今后WebVision Challenge将会替代ILSVRC,虽然WebVision 中的数据比人工标记的ImageNet拥有更多的噪声,但他的数据更多是从网络中获取,因此成本也要低很多。另外从2016 年 ILSVRC 的图像识别错误率已经达到约 2.9%,远远超越人类的5.1%,这类竞赛已经完成了它的历史使命,失去了存在的意义。未来,计算机视觉的重点在图像理解。最后,让我们记住此次中国团队在比赛中取得的辉煌成绩吧!同时也期望在新的赛场依然能风采依旧!
本文作者:杨文
本文转自雷锋网禁止二次转载,原文链接