智造观点
Facebook的研究表明,AI对物体并非无差异识别,计算机视觉系统能更加高效地识别更贵的家庭物体。
最近,Facebook AI研究人员在ARXIV上发表了一篇题为《物体识别对每个人都一样有效吗?》的论文,他们指出“与亚洲和非洲相比,系统更容易识别北美和欧洲家庭中的物品。”研究人员公布了6个主流物体识别系统的分析,进一步发现识别家庭物体的计算机视觉对高收入家庭更有效。
这项研究检验了Facebook、Google Cloud、Microsoft Azure、AWS、IBM Watson和Clarifai开发的分类系统,旨在分析公共目标识别系统在地理多样性数据上的准确性。
论文的数据包含家庭物品,希望比物体识别中常用的图像数据有更具代表性的地理覆盖范围。他们发现,在家庭收入较低的国家,这些系统在家庭物品上的表现相对较差。性能下降主要是由于对象类(例如,洗碗皂)的外观差异以及放置的不同环境(例如,浴室外出现的牙刷)造成的。
最终研究结果显示,6个主流物体检测系统的分析对富裕家庭的效果要比最贫穷家庭好10-20%。研究人员进一步例证,Facebook在美国每月收入3500美元或以上的家庭与索马里和布基纳法索等国每月收入50美元或以下的家庭之间的准确率差距高达20%。
物体识别是什么?
物体识别使用计算机视觉来辨别椅子、牙膏或衣服等事物之间的区别。它被众多云服务公司以及面向消费者的服务所利用,如谷歌助手的计算机视觉服务镜头和亚马逊的风格感知都利用了这项技术。Facebook使用目标检测进行内容审核,并为有视觉障碍的人识别屏幕上的东西。
研究结果表明,这个问题并不是存在于一个特定的物体识别系统,而是广泛影响了包括Facebook在内的众多公司的工具,结果清楚地表明,未来整个行业包括Facebook需要做得更好。他们希望通过公布结果和阐述方法,让更多AI研究人员和工程师可以利用这个程序来测试和比较自家识别系统的性能,然后更有效地为每个人服务。
造成贫富差异的原因是什么?
从地图上看,Facebook的物体识别性能在南半球的表现最差。
为了测试物体识别系统的准确性,研究人员使用了由Gapminder基金会对50个国家的264个家庭拍摄的图像进行汇编的开源数据集Dollar Street。
研究发现,当下系统中的差异可能是由于众多目标探测系统在训练时使用的Imagenet几乎完全是欧洲和北美的照片汇编而成。通过公共照片网站上的英语搜索获得的照片也可能是美国和欧洲高收入环境过度表现的一个原因。事实上,Facebook计算机视觉研究人员在前些时间绘制非洲人口密度图时,不得不重新定义房屋的类型。
Facebook表示,它计划通过使用包含非英语标签的图像对其卷积网络进行培训来解决这一缺陷。这项工作将在6月16日至20日在加利福尼亚长滩举行的计算机视觉和模式识别领域的顶级会议(CVPR)上举行的计算机视觉全球挑战研讨会上分享。
来源:微信公众号 人工智能观察