从发展的角度来看,人工智能正在从第一代的知识驱动和第二代的数据驱动转向第三代的多元驱动,知识、数据、算法和算力成为四大因素。安全可控也成为第三代人工智能的核心发展目标,数据与算法安全成为学界和业界人士重点关注的研究主题之一。其中,在数据安全层面,数据泄露和投毒是造成数据安全风险的两个重要根源;在算法安全层面,对抗样本对人脸识别、身份认证以及刷脸闸机等人工智能应用的安全性构成了巨大的挑战。
近年来,我们更是看到了很多场景中 AI 算法被攻破的典型案例。自 2016 年以来,特斯拉 Model S、Model X 和车辆搭载的 Autopilot 自动辅助驾驶系统曾先后被腾讯科恩安全实验室攻破,高危安全漏洞和 AI 算法的缺陷使车辆处于危险的状态,并严重威胁人身和财产安全;2021 年,19 款使用 2D 人脸识别技术的国产安卓手机被 RealAI 利用具备对抗攻击能力的特制眼镜成功解锁,由此引发了人们对人脸支付、线上身份验证等的担忧。
在 AI 模型和算法面临种种挑战的情况下,如何准确地探知各个 AI 攻防模型的攻防能力变得愈加重要。这时,如果出现一个平台能够对 AI 模型和算法的攻防能力做出排名,那么我们就能够及时地调整改进,并有的放矢地采取防范措施,也就可以降低技术落地过程中的安全风险。
在 2021 年北京智源大会上,清华大学联合阿里安全、瑞莱智慧 RealAI 发布了业内最新的基于深度学习模型的对抗攻防基准平台(Adversarial Robustness Benchmark),此基准可以更加公平、全面地衡量不同 AI 攻防算法的效果,提供方便使用的鲁棒性测试工具,全面衡量 AI 攻防模型的攻防能力。用户可以通过提交模型的方式获取攻防能力排名。
从左往右依次为 RealAI CEO 田天、中国科学院院士 & 清华大学人工智能研究院院长张钹、清华大学计算机系教授 & RealAI 首席科学家朱军和阿里巴巴安全部技术总监薛晖。
构建公平、全面 AI 对抗攻防基准平台的必要性
深入研究潜在针对机器学习模型的攻击算法,对提高机器学习安全性与可信赖性有重要意义。以往,研究者在衡量模型的防御性能时,基本只在一种攻击算法下进行测试,显然不够全面。攻击算法是经常变化的,需要考虑模型在多种攻击算法和更强攻击下的防御能力,这样才能比较系统地评估 AI 模型的防御能力。
与此同时,业界此前提出的各种「攻击算法排行榜」只包含一些零散的算法,测量攻击算法的环境也只包含单一的防御算法,用于评测的数据集也不多,更没有合适的统计和度量标准。
因此,此次推出的 AI 对抗安全基准基本上包含了目前主流的人工智能对抗攻防模型,涵盖了数十种典型的攻防算法。不同算法比测的过程中尽量采用了相同的实验设定和一致的度量标准,从而在最大限度上保证了比较的公平性。
AI 算法的攻击结果和防御结果排名示例,左为防御算法排名,右为攻击算法排名。
基准测试平台网站:http://ml.cs.tsinghua.edu.cn/adv-bench
通过对 AI 算法的攻击结果和防御结果进行排名、比较不同算法的性能,对于建立 AI 安全基准具有重要学术意义,可以更加公平、全面地衡量不同算法的效果。
阿里巴巴安全部技术总监薛晖表示,「参与推进这项研究工作,除了帮助 AI 模型进行安全性的科学评估,也是为了促进 AI 行业进一步打造『强壮』的 AI。
AI 攻防基准平台的发展及意义
近几年来,关于 AI 对抗攻防的国际赛事不断涌现,如生成对抗网络之父 Ian Goodfellow 牵头组织的 NIPS 2017 对抗样本攻防竞赛、2018 DEFCON CAAD CTF 对抗攻防赛等。其中,在 NIPS 2017 对抗样本攻防竞赛,朱军教授团队包揽全部三个项目的冠军。
2020 年,清华大学人工智能研究院研发并开源了 AI 对抗安全算法平台 ARES(Adversarial Robustness Evaluation for Safety)。这是一个用于对抗机器学习研究的 Python 库,致力于对图像分类任务上不同模型的对抗鲁棒性进行准确和全面的基准测试。这个算法平台也是本次发布的 AI 对抗鲁棒测评基准的主要依托。
- GitHub 项目地址:https://github.com/thu-ml/ares
- 论文地址:https://arxiv.org/pdf/1912.11852.pdf
在该基准测试中,研究者将 16 种防御模型(CIFAR-10 和 ImageNet 数据集上各占一半)和 15 种攻击方法用于对抗鲁棒性评估。下图(上)为防御模型,图(下)为攻击方法(其中 FGSM、BIM 和 MIM 分别采用了白盒和基于迁移的攻击)。该基准测试汇集了当前主流和代表性的对抗攻击和防御算法,论文也入选了 CVPR 2020 Oral。
除了数十种典型的攻防算法之外,本次发布的 AI 安全排行榜也包括了刚刚结束的 CVPR 2021 人工智能攻防竞赛中诞生的排名前 5 代表队的攻击算法。此次竞赛吸引到了全球 2000 多支代表队提交最新算法,选手基于 ARES 平台提交攻击算法,对已有对抗防御模型进行准确的鲁棒性测试,进一步提升了该安全基准的科学性和可信性。
CVPR 2021 人工智能攻防竞赛中「赛道 1 防御模型白盒对抗攻击」排名前 5 的队伍。
因此,基于前期研究成果以及 CVPR 2021 人工智能攻防竞赛中提交的算法,清华大学联合阿里安全、RealAI 发布了最新的 AI 对抗鲁棒性测评基准平台。完整时间线如下:
RealAI 副总裁唐家渝表示:「该基准评测平台利用典型的攻防算法和 CVPR 2021 比赛积累的多个性能优越的算法进行互相评估,代表当前安全与稳定性测量的国际标准。」
清华、阿里安全和 RealAI 三方均强调,该基准评测平台不是专属于某一家机构或者公司搭建的平台,需要工业界和学术界的共同参与才能把它打造为真正受认可的全面、权威的 AI 安全评估平台。因此,三方将联合不断在排行榜中注入新的攻击和防御算法,并且欢迎学术界和产业界的团队通过 ARES 平台提交新的攻防模型。
该平台的发布对工业界和学术界都能带来正面的影响,比如工业界可以使用该平台评估目前 AI 服务的安全性,发现模型的安全漏洞。同时,也可为学术界提供一个全面、客观、公平、科学的行业标准,推动整个学术界在 AI 对抗攻防领域的快速发展。