ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架

简介: ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架
本文是一篇关于黑箱防御工作的研究,代码和模型均已开源,论文已被 ICLR 2022 接收为 spotlight paper。


今天介绍一篇密根州立大学 (Michigan State University) 和 MIT-IBM AI 实验室的一篇关于黑箱防御工作的文章,本文被 ICLR 2022 接收为 spotlight paper, 代码和模型均已开源。该文作者受 Trustworthy ML Initiative 邀请,将会在美东时间 9 月 15 日中午 12 点对本篇文章进行讲解以及相关的讨论,感兴趣的同学可以使用 zoom 线上参加。


1. 背景
机器学习模型,尤其是深度神经网络,在各种预测任务中有着卓越的表现,但是这些模型通常缺失鲁棒性(robustness)。例如,在输入上添加一些人眼难以察觉的对抗扰动(adversarial perturbation)会导致神经网络误判。目前有很多工作研究对抗攻击(adversarial attack),并成功应用在了不同应用场景上,比如:图片分类, 物体识别,图片重建。受害模型(victim model)可分为白箱模型(所有模型信息可以被攻击者得到),黑箱模型(模型信息不可知)

鉴于对抗攻击的流行,如何提高模型鲁棒性进而不受攻击影响成为了当前的研究重点。对抗学习(Adversarial Training)是其中最为有效的方法之一。由对抗学习延伸,多种经验主义防御(empirical defense)方法被提出。另外一类防御是认证防御(certified defense),与经验主义防御不同的是,它可以提供在一定扰动强度范围内成功防御的理论保证,即在一定扰动强度内,经验主义防御可能对新的对抗攻击失效,但认证防御不会失效。另外,尽管对抗防御(adversarial defense)这个领域有了很大的发展,几乎所有防御都是只针对白箱模型,但是在实际应用中,白箱模型的这种假设会限制其应用。比如,模型参数的公开会导致训练数据的泄露,进而影响用户隐私。白箱防御确实可以使用多个不同结构的代理模型(surrogate model)代替黑箱模型进行对抗学习。但是在一些领域(例如:医学领域),针对一个任务并没有多个训练好的模型供防御者使用。所以,本文提出了一个问题:
是否有可能设计一个针对黑箱的防御方法?(训练过程中仅使用输入和模型的输出作为训练数据)


2. 问题阐述
随机平滑(Randomized Smoothing, RS)是用加了随机高斯噪声的图片进行目标模型训练,而降噪平滑(Denoised Smoothing, DS)是在不改变目标模型参数的情况下,只在其前方加一个降噪器(denoiser),训练时仅更新降噪器的参数,最后使降噪器与目标模型作为一个整体时具有鲁棒性。随机平滑与降噪平滑均为认证防御,但对于黑箱防御这个应用场景,降噪平滑更为适合。所以,本文以降噪平滑为基础进一步搭建黑箱防御框架。目标模型是黑箱,反向传播 Backpropagation, BP)的过程会被中断,进而梯度(gradient)并不能通过反向传播得到。所以,需要解决的问题就变成了如何估算降噪器的训练梯度来更新参数。

3. 方法
一阶优化(first-order optimization, FO)需要梯度可求,而零阶优化(zeroth-order optimization, ZO)则不需要。零阶优化会通过函数输出间的差来估算梯度。


随机梯度估算(random gradient estimation,RGE)是在原输入上加相同形状的随机变量,并通过其输出与原输出的差来进行梯度估计,如下图。其中, 变量, 为平滑参数(smoothing parameter),为 q 个随机变量。随机梯度估算不稳定,需要增加 q 值,才能增强其稳定性,而运算量也会成倍上升。另外一种方法则是坐标梯度估算(coordinate gradient estimation, CGE),每次仅改变一个位置上的元素的值,并求出其对应的梯度,反复进行 d 次,如下方公式。虽然坐标梯度估算更加稳定,但是当变量的维度 d 很大时,运算量会大到难以接受。这也就是为什么,零阶优化目前仅用于对抗攻击的生成,因为对抗扰动的维度是图片类似的维度,而模型参数的维度远远大于图片的维度显然,直接使用零阶优化更新模型参数对于黑箱防御这个任务是行不通的。  

利用链式法则(chain rule),降噪器参数的梯度求解可以被分解成两部分,如下方公式。进而,只需要估算出降噪器输出的梯度即可,然而降噪器输出的维度与图片维度相当,依然无法使用坐标梯度估计。


FO-DS 和 ZO-DS 分别为降噪平滑的一阶优化版本和零阶优化使用随机梯度估算的版本。如下表所示,使用随机梯度估计,并不能得到理想的效果,与一阶优化结果相比有着明显差距。

很明显,为了可以使用更为稳定且准确的坐标梯度估计,需要进一步降低目标变量的维度。如下图所示,本文在降噪器与黑箱模型中间插入了一个预训练好的自编码器(Autoencoder, AE),一个自编码器由一个编码器(encoder)和一个解码器(decoder)组成。编码器与降噪器被归为白箱模块,在训练过程中参数会被更新,而解码器与黑箱模型被视为一个黑箱整体,其参数在训练过程中都不会得到更新。这种网络框架被称为, ZO Autoencoder-based DS (ZO-AE-DS),在这个黑箱防御框架下,白箱模块输出的维度被大幅压缩,使得坐标梯度估计可以被使用。


4. 试验
试验阶段,本文在 CIFAR-10,STL-10 以及 Restricted ImageNet(R-ImageNet)数据集上进行了图片分类任务的效果评估。使用的评估指标为标准准确率(standard accuracy,SA)和不同半径下的认证准确率(certified accuracy,CA)。值得注意的是,当半径为 0 时,标准准确率与认证准确率相等。另外,本文将 ZO-AE-DS 黑箱防御框架扩展应用到了图片重建任务上,也得到了理想的效果。本文实验中的降噪器选择的是与降噪平滑相同的 DnCNN。实验表格中常用缩写如下图所示。


下方表格和图表是在 CIFAR-10 数据集上的实验结果。

  • 首先,在使用不同的 q 值的情况下,ZO-AE-DS 的效果都远超 ZO-DS。
  • 第二,使用 CGE 的 ZO-AE-DS 取得了零阶优化方法中最好的效果,甚至达到了比 FO-DS 更好的效果,这归功于自编码器的引入。ZO-AE-DS 黑箱防御框架解决了零阶优化在高维度变量下无法使用的难题
  • 第三,可以看出,使用一阶优化直接更新目标网络参数的随机平滑取得了最好的效果,但这是在所难免的。




下面是将 ZO-AE-DS 扩展到图像重建任务上、在 MNIST 数据集上得到的结果。可以看到,将 ZO-AE-DS 黑箱防御框架应用到图像重建任务上时依然可以达到与 FO-DS 相似的效果,这证明了 ZO-AE-DS 黑箱防御框架的有效性以及可扩展性。



5. 总结与讨论
本文主要研究了在只使用目标模型的输入和输出的情况下,如何进行黑箱防御。为了解决黑箱防御这个难题,本文将降噪平滑与零阶优化结合起来,提出了有效的且可扩展的 ZO-AE-DS 黑箱防御框架,这个框架有效地减少了零阶梯度估计的方差,进而缩减了零阶优化与一阶优化性能上的差距。
作者介绍
张益萌, 密歇根州⽴⼤学OPTML 实验室, 计算机博士在读, 研究兴趣⽅向包括AI安全、 3D/2D计算机视觉、 多模态、 模型压缩。

相关文章
|
消息中间件 监控 数据挖掘
NineData:从Kafka到ClickHouse的数据同步解决方案
NineData 提供了强大的数据转换和映射功能,以解决 Kafka 和 ClickHouse 之间的格式和结构差异,确保数据在同步过程中的一致性和准确性。
882 2
NineData:从Kafka到ClickHouse的数据同步解决方案
|
机器学习/深度学习 API 开发工具
|
人工智能 分布式计算 数据处理
MaxFrame 产品功能是否满足预期?
MaxFrame 产品功能是否满足预期
192 2
|
存储 搜索推荐 数据挖掘
数据库的应用
数据库在众多领域发挥着重要作用。在企业管理中,它助力客户关系、人力资源和财务管理,提升决策科学性和效率;金融领域中,银行系统、证券交易和保险行业依托数据库保障交易安全、投资决策及风险管理;医疗行业则通过电子病历管理和数据分析提高诊疗准确性并优化资源配置;电子商务运用数据库实现商品、订单管理和用户行为分析,增强购物体验;教育领域中,数据库支持学生信息、教学资源管理和教育数据分析,促进家校沟通与教学质量提升;科学研究方面,数据库促进数据共享、科研项目管理和深入数据分析,加速科学进步。
725 3
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的疫苗预约系统附带文章和源代码设计说明文档ppt
基于ssm+vue.js+uniapp小程序的疫苗预约系统附带文章和源代码设计说明文档ppt
174 0
|
网络协议 测试技术 Go
收支软件-明细和登记收入|学习笔记
快速学习收支软件-明细和登记收入
收支软件-明细和登记收入|学习笔记
|
SQL 负载均衡 关系型数据库
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32347 118
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6863 18
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手

热门文章

最新文章