仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

本文涉及的产品
.cn 域名,1个 12个月
简介: 仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低


网络规模的数据集很容易受到低成本的投毒攻击,这种攻击只需要一小部分被破坏的样本就可以使整个模型中毒。


用于训练深度学习模型的数据集已经从数千个精心策划的示例增长到具有数十亿个从互联网自动爬取样本的网络规模数据集。在这种规模下,通过人力管理来确保每个示例的质量是不可行的。到目前为止,这种数量高于质量的权衡是可以接受的,一方面是因为现代神经网络对大量标签噪声具有很强的适应力,另一方面是因为对噪声数据的训练甚至可以提高模型在非分布数据上的效用。

虽然大型深度学习模型对随机噪声具有一定的包容性,但训练集中即使是极少量的对抗性噪声(即中毒攻击)也足以在模型行为中引入针对性错误。先前研究认为,在缺乏人力管理情况下,对现代深度学习模型的中毒攻击是可行的。然而,尽管存在潜在的威胁,目前看来,还没有发生过涉及网络规模数据集中毒的真实攻击。部分原因可能在于,之前的研究忽略了一个问题:对手如何确保他们损坏的数据会被纳入一个网络规模的数据集。

本文,来自谷歌、苏黎世联邦理工学院等机构的研究者撰文介绍了两种新的数据中毒攻击方式:

分割视图数据中毒(Split-view data poisoning):第一个攻击目标是当前的大型数据集(例如 LAION-400M),并利用研究者在收集时看到的数据可能与最终用户在训练时看到的数据不同(显著且随机)这一事实。

Frontrunning 数据中毒:第二种攻击利用了流行的数据集,比方说,维基百科的 snapshot。这种中毒方式是可行的:因为即使内容审核人员在事后检测并恢复恶意修改,攻击者的恶意内容也会持续存在于训练深度学习模型的 snapshot 中。

论文地址:https://arxiv.org/pdf/2302.10149.pdf

研究在 10 个流行的数据集上探索了这两种攻击的可行性。结果表明,即使对低资源攻击者来说,这些攻击也是可行的:只需 60 美元的成本,就可以毒害 LAION-400M 或 COYO-700M 数据集的 0.01%。

为了对抗这些中毒方式,本文将介绍两种防御措施:

  • 完整性验证:通过为所有已索引的内容分发加密哈希来防止分割视图中毒;
  • 基于时间的防御:通过随机数据快照和引入网络规模数据集的顺序来防止 Frontrunning 数据中毒。


除此以外,本文还将讨论这些防御措施的局限性以及未来的解决方案。

两种攻击手段

分割视图中毒

本文介绍的第一种中毒方式利用了这样一个现状:由维护者发布的分布式数据集的索引不能被修改,但数据集中 URL 的内容可以被修改。

该研究观察到:有时域名会过期,一旦过期,任何人都可以购买,因此域名过期在大型数据集中很常见。通过拥有域名,将来下载的数据可能都会有毒。

该研究还注意到,攻击者经常购买过期域名,以获取这些域名附带的剩余信任。

研究表明,分割视图中毒在实践中是有效的,因为大多数网络规模数据集的索引在首次发布后很长时间内都保持不变,即使在很大一部分数据过时之后也是如此。而且关键的是,很少(也没有现代)数据集包含任何形式的下载内容的加密完整性检查。

Frontrunning 数据中毒

第二种中毒方式将分割视图中毒的范围扩展到攻击者无法持续控制数据集索引的 web 资源的设置。相反,在恶意修改被检测到之前,攻击者只能在短时间内(可能仅需几分钟)修改 web 内容。

Frontrunning 攻击依赖于这样一个事实:在某些情况下,对手可以准确地预测何时访问 web 资源,并将其包含在数据集快照中。因此,攻击者可以在管理员收集快照之前毒害数据集内容,从而领先于稍后将恢复恶意编辑的内容管理员。因此,攻击者可以预测任何维基百科文章的快照时间,精确到分钟。

攻击结果

表 1 最右边的一列显示了研究结果。即使是最古老和访问频率最低的数据集,每个月也至少有 3 次下载量。因此,在追踪数据的 6 个月里,有超过 800 次下载被本文所介绍的攻击方式所毒害。不出所料,相较于旧的数据集而言,较新的数据集的请求量更高。因此,不同的数据集为攻击者提供了不同的权衡:更新的数据集拥有更小比例的可购买图像,但攻击范围可以触及更多更脆弱的客户端。

衡量攻击成本。最直接的问题是,这种攻击方式能否在实践中实现,其主要限制是购买域名的货币成本,研究使用 Google Domains 在 2022 年 8 月报告的成本来衡量。图 1 显示了数据集中可以由攻击者控制的图像的比例,作为他们预算的函数。研究发现每个数据集中至少 0.01% 的数据可以被控制,每年花费不到 60 美元。

通过监控研究购买的域名中请求的 URL,研究人员绘制了每次 URL 被请求的时间,由源 IP 进行颜色编码,并可以直接读取几十个 Conceptual 12M 的用户。具体见图 2。

据保守分析,在没有任何其他防御措施的情况下,目前可以给 6.5% 的维基百科文档下毒。

更多内容,请参考原论文。

相关文章
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
98 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
|
10天前
|
人工智能 编解码 自然语言处理
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。
47 6
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
|
10天前
|
人工智能 编解码
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。
129 5
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
|
11天前
|
机器学习/深度学习 数据采集 人工智能
昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统,将中文语音信号转换成文字,并利用开源数据集对模型效果加以验证。
32 12
|
14天前
|
存储 人工智能 数据可视化
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
欢迎学习《基于 DANet 和 Deeplabv3 模型的遥感图像分割》实验。在本实验中,你将深入了解如何运用计算机视觉(CV)领域的 AI 模型,搭建一个高效精准的遥感地图区域分割系统,并利用开源数据集和昇腾 AI 芯片对模型效果加以验证。
26 0
昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
|
15天前
|
存储 Serverless 文件存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
昇腾AI行业案例(四):基于 Bert 模型实现文本分类
欢迎学习《昇腾行业应用案例》的“基于 Bert 模型实现文本分类”实验。在本实验中,您将学习如何使用利用 NLP (natural language processing) 领域的AI模型来构建一个端到端的文本系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
24 0
|
16天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
13天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
148 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
7天前
|
人工智能 自然语言处理 JavaScript
微软开源课程!21节课程教你开发生成式 AI 应用所需了解的一切
微软推出的生成式 AI 入门课程,涵盖 21 节课程,帮助开发者快速掌握生成式 AI 应用开发,支持 Python 和 TypeScript 代码示例。
129 14