你的照片到底被多少面部识别系统「偷偷」用过?是时候用这款工具查一查了

简介: 在这个数据「泛滥」的时代,你的隐私数据到底被多少机构「花式」使用了?国外的研究人员开发一款名叫Exposing.AI的工具,可以帮人们获知自己的人脸数据被各种面部识别系统使用的情况,并经常能获得令人出乎意料的结果。

微信图片_20220112133910.jpg


当科技公司开发出「蚕食个人隐私」的面部识别系统的时候,他们大概率已经得到了您意想不到的帮助:你的脸——

 

公司、大学和政府实验室使用了数百万张从五花八门的网上资源中收集来的图像,来开发这项技术。

 

而现在,国外的研究人员开发了一项技术:「Exposing.AI 」, 这项技术可以帮助人们在这些图像中搜索他们的旧照片。


微信图片_20220112133911.png


这款工具可以匹配Flickr在线照片共享服务中的图像,为查找各种AI技术(从面部识别到聊天机器人)所使用的大量数据提供了窗口。

 

「人们需要知道,他们最私密的照片很可能被利用了」,隐私和民权组织监视技术监督项目的技术总监利兹·奥沙利文(Liz O’sullivan)如是说。


她与在柏林的研究员、艺术家亚当·哈维(Adam Harvey)一起合作,也参与了Exposing.AI项目, 


蜜月照被国家级监控系统所用,这位导演感到了「害怕」


人工智能系统不会魔法般的变得聪明——它们是通过精确定位人类生成的数据模式来自我学习的。技术是一直在进步和发展的,然而,它们却学到了人类对女性和少数族裔的偏见。

 

大家可能并不知道,自己其实一直在默默为AI的发展做着贡献

 

对于一些人来说,这是一件很令人感到新奇的事,而对于另外一些人,就非常令人毛骨悚然了。

 

关键是,在国外,这可能是违法的——

 

2008年,伊利诺斯州通过了一项名为《生物特征信息隐私法》(Biometric Information Privacy Act)的法律,条文中要求,如果在未经居民同意的情况下使用他们的面部扫描,将会受到经济处罚。

 

2006年,来自不列颠哥伦比亚省维多利亚州的纪录片导演布雷特•盖勒(Brett Gaylor)将他的蜜月照片上传到当时很受欢迎的Flickr网站上:


微信图片_20220112133913.png


经过15年后,使用哈维提供的早期版本的Exposing.AI,他发现,数百张他的蜜月旅行的照片,已经进入到了多个数据集——这些数据集很可能被用于训练世界各地的面部识别系统

 

多年来,Flickr被许多公司买卖,现在属于照片共享服务公司SmugMug,该公司允许用户在知识共享许可(Creative Commons license)下分享他们的照片。


微信图片_20220112133916.png


这种许可在互联网网站上很常见,意味着其他人可以在一定的限制下使用这些照片(尽管这些限制可能被忽略了)。

 

2014年,当时拥有Flickr的雅虎(Yahoo)在一个数据集中,为了帮助计算机视觉方面的工作,使用了许多这样的照片。

 

盖勒好奇,自己的照片究竟是如何被到处传来传去的。接着,他就被告知,这些照片可能被美国和其他国家的监控系统所使用

 

「我的好奇变成了恐惧」,他说。

 

是的,一个美国人的蜜月照片,竟然被用来建立国家级别的监视系统,实在是令人意外。

 

非商业用途MegaFace被各种公司普遍使用,下线也无法解决问题


几年前,顶尖大学和科技公司的人工智能研究人员,开始从各种渠道收集照片,这些渠道包括照片分享服务、社交网络、OkCupid等约会网站,甚至还包含安装在大学里的相机。收集之后,他们向其他组织分享了这些照片。

 

这对于研究人员来说,是正常现象。他们都需要把数据输入新的人工智能系统,所以他们就分享了所有的数据,但这是合法的

 

MegaFace数据集就是一个例子——这是华盛顿大学的教授们在2015年创建的一个数据集。


微信图片_20220112133917.png


他们在数据源没有知情且同意的情况下,就把他们的照片放进了庞大的照片库中。

 

这些教授将图片发布到互联网上,以便其他人可以下载。

 

根据《纽约时报》的公开记录请求,世界各地的公司和政府机构已经下载了超过6000次MegaFace。其中包括美国国防承包商诺斯罗普·格鲁曼公司、中央情报局的投资部门In-Q-Tel,当然还有中国的社交媒体及公司等。

 

研究人员创建MegaFace的起初目的,是为了将其用于一项旨在促进面部识别系统发展的学术竞赛,并不是为商业用途准备的。

 

然而事实是,但只有一小部分公开下载了MegaFace的用户参加了这场比赛。

 

「我们不适合讨论第三方项目」,华盛顿大学发言人维克托·巴尔塔(Victor Balta)说,「MegaFace已经“退役”,我们也不再分发MegaFace的数据了」


微信图片_20220112133919.png


今年5月,华盛顿大学(University of Washington)将MegaFace下线。然而。这些数据的副本可能出现在任何地方,并继续为新的研究提供素材。

 

限制之下,隐私数据滥用问题何时可解?

 

奥沙利文和哈维花了数年时间,试图开发一个可以揭露所有这些数据使用情况的工具,实际的过程比他们预料的要困难。

 

他们想要使用某人的照片,来立即告诉那个人ta的脸被包含在各种数据集的次数。

 

但他们担心,这种工具可能会被其他组织用在不好的地方。

 

「潜在的危害似乎很大」,奥沙利文说。

 

值得一提的是,奥沙利文还是帮助企业管理AI技术使用的纽约公司Responsible.AI的副总裁。

 

最后,他们被迫限制了人们搜索该工具的方式以及搜索提供的结果。结果是,这个工具并不像他们希望的那样有效。

 

Exposing.AI本身并不使用面部识别技术。只有当你提供了可以在线指向该照片的方式——比如一个互联网地址,它才能实现照片的精确定位

 

此外,人们只能搜索发布在Flickr上的照片:他们需要Flickr的用户名、标签或网络地址来识别这些照片。

 

研究人员表示,这一举措是为了加强安全和隐私保护能力。


微信图片_20220112133921.png


虽然限制了该工具的用途,但它的效果仍然让人大开眼界:

 

Flickr上的图片构成了大量的面部识别数据集,这些数据集已经在互联网上广泛流传,其中就包括MegaFace。

 

使用Exposing.AI 找到与自己有联系的照片并不难:只需要在旧邮件中搜索Flickr链接,就能找到被用于MegaFace和其他面部识别数据集的照片。

 

通过这个工具,盖勒对他所发现的情况感到特别不安,因为他曾经认为。互联网上的信息自由流动是一件积极的事情,而他使用Flickr,是因为其他人使用他照片的权利是受到知识共享许可限制的。

 

「我现在正经历着这些后果」,他说。

 

他的希望——也是奥沙利文女士和哈维先生的希望——是公司和政府会制定新的规范、政策和法律,来防止个人数据被大量收集。

 

此外,盖勒正在制作一部记载他的蜜月照片漫长、曲折、令人不安的「流传历程」的纪录片,来揭示这个私人数据被滥用的问题。

 

参考链接:

https://www.nytimes.com/2021/01/31/technology/facial-recognition-photo-tool.html?referringSource=articleShare

相关文章
|
数据采集 监控 数据可视化
Scrapy可视化管理管理工具总结
Scrapy可视化管理管理工具总结
1723 0
Scrapy可视化管理管理工具总结
|
人工智能 自然语言处理 语音技术
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。
792 14
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
|
存储 PyTorch 算法框架/工具
Pytorch学习笔记(4):模型创建(Module)、模型容器(Containers)、AlexNet构建
Pytorch学习笔记(4):模型创建(Module)、模型容器(Containers)、AlexNet构建
457 0
Pytorch学习笔记(4):模型创建(Module)、模型容器(Containers)、AlexNet构建
|
存储 机器学习/深度学习 人工智能
【AI系统】昇腾 AI 核心单元
本文深入解析了华为昇腾AI处理器的核心——AI Core及其达芬奇架构。AI Core采用特定域架构(DSA),专为深度学习算法优化,通过矩阵、向量和标量计算单元的高效协作,实现了对深度学习算法的加速。文章详细介绍了AI Core的计算单元、存储系统及控制单元的设计,展示了其如何通过优化数据通路和控制流程,显著提升计算性能。
900 3
|
存储 缓存 关系型数据库
【MySQL调优】如何进行MySQL调优?一篇文章就够了!
MySQL调优主要分为三个步骤:监控报警、排查慢SQL、MySQL调优。 排查慢SQL:开启慢查询日志 、找出最慢的几条SQL、分析查询计划 。 MySQL调优: 基础优化:缓存优化、硬件优化、参数优化、定期清理垃圾、使用合适的存储引擎、读写分离、分库分表; 表设计优化:数据类型优化、冷热数据分表等。 索引优化:考虑索引失效的11个场景、遵循索引设计原则、连接查询优化、排序优化、深分页查询优化、覆盖索引、索引下推、用普通索引等。 SQL优化。
【MySQL调优】如何进行MySQL调优?一篇文章就够了!
|
安全 测试技术 数据安全/隐私保护
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
LLM用于时序预测真的不行,连推理能力都没用到
【7月更文挑战第15天】LLM在时序预测上的应用遇挫:研究显示,大型语言模型在多个实验中未显优势,甚至被简单注意力层替代时效果不变或更好。预训练知识未能有效利用,处理时序依赖性不足,且在小样本学习中未见提升。[链接:](https://arxiv.org/pdf/2406.16964)**
358 2
|
机器学习/深度学习 Python
删除指定文件夹重复的文件
这是一个Python脚本,用于删除指定文件夹(包括子目录)中的重复图片文件,基于文件的MD5值。程序依赖`NStudyPy`库,可通过`pip install -U NStudyPy`安装。核心函数`delete_repeat_file`接收路径和是否递归参数,调用未展示的`get_repeat_file`函数获取重复文件并删除。
236 1
|
传感器 机器学习/深度学习 人工智能
人工智能在自动驾驶中的挑战与机遇
【7月更文挑战第2天】自动驾驶技术融合AI、传感器和机器学习,革新交通,但也遭遇多重挑战:传感器在恶劣天气下性能下降,数据处理需高速决策,法规与伦理待明晰,社会接受度低。机遇在于技术创新提升驾驶安全,多模态交通生态,共享出行及物流革命,以及催生新商业模式。面对挑战,各方需合力推动法规完善和社会信任建设,以实现自动驾驶的潜力。
|
数据安全/隐私保护 Windows
win11家庭版开机密码忘记了怎么办?
win11家庭版开机密码忘记了怎么办?
472 1