IJCV 2022|逆转特征让re-id模型从88.54%到0.15%

简介: IJCV 2022|逆转特征让re-id模型从88.54%到0.15%



 新智元报道  

作者:郑哲东编辑:QQ

【新智元导读】攻击是为了更好的防御。

这篇文章初版2018年5月就写好了,最近2022年12月才中。四年中得到了老板们的很多支持和理解。

(这段经历也希望给在投稿的同学们一点鼓舞,paper写好肯定能中的,不要轻易放弃!)

arXiv早期版本为:Query Attack via Opposite-Direction Feature:Towards Robust Image Retrieval

论文链接:https://link.springer.com/article/10.1007/s11263-022-01737-y

论文备份链接:https://zdzheng.xyz/files/IJCV_Retrieval_Robustness_CameraReady.pdf

代码:https://github.com/layumi/U_turn

作者:Zhedong Zheng, Liang Zheng, Yi Yang and Fei Wu

与早期版本相比,

  • 我们在公式上做了一些调整;
  • 加入了很多新的related works讨论;
  • 加入了多尺度Query攻击 / 黑盒攻击 / 防御三个不同角度的实验;
  • 加入Food256,Market-1501,CUB,Oxford,Paris等数据集上的新方法和 较新的可视化方式。
  • 攻击了reid中的PCB结构,攻击了Cifar10中的WiderResNet。

实际案例

实际使用的话。举个例子,比如我们要攻击google或者百度的图像检索系统,搞大新闻(大雾)。我们可以下载一张狗的图像,通过imagenet模型(也可以是其他模型,最好是接近检索系统的模型)计算特征,通过把特征调头(本文的方法),来计算对抗噪声(adversarial noise)加回到狗上。再把攻击过后的狗使用以图搜图,可以看到百度谷歌的系统就不能返回狗相关的内容了。虽然我们人还能识别出这是狗的图像。P.S. 我当时也试过攻击谷歌以图搜图,人还能识别出这是狗的图像,但谷歌往往会返回「马赛克」相关图像。我估计谷歌也不全是用深度特征,或者和imagenet模型有较大差异,导致攻击后,往往趋向于「马赛克」,而不是其他实体类别(飞机啊之类的)。当然马赛克也算某种程度的成功!

What


  1. 本文的初衷其实特别简单,现有reid模型,或者风景检索模型已经达到了95%以上的Recall-1召回率,那么我们是不是可以设计一种方式来攻击检索模型?一方面探探reid模型的老底,一方面攻击是为了更好的防御,研究一下防御异常case。
  2. 检索模型与传统的分类模型的差异在于检索模型是用提取出来的特征来比较结果(排序),这与传统的分类模型有较大的差异,如下表。

3. 检索问题还有一个特点就是open set也就是说测试的时候类别往往是训练时没见过的。如果大家熟悉cub数据集,在检索设置下,训练的时候训练集合100多种鸟,和测试时测试100多种鸟,这两个100种是没有overlapp种类的。纯靠提取的视觉特征来匹配和排序。所以一些分类攻击方法不适合攻击检索模型,因为攻击时基于类别预测的graident往往是不准的。4. 检索模型在测试时,有两部分数据一部分是查询图像query,一部分是图像库 gallery(数据量较大,而且一般不能access)。考虑到实际可行性,我们方法将主要瞄准攻击query的图像来导致错误的检索结果。

How

1. 很自然的一个想法就是攻击特征。那么怎么攻击特征?基于我们之前对于cross entropy loss的观察,(可以参考large-margin softmax loss这篇文章)。往往我们使用分类loss的时候,特征f会存在一个放射形的分布。这是由于特征在学习的时候与最后一层分类层权重W计算的是cos similarity。如下图,导致我们学完模型,同一类的样本会分布在该类W附近,这样f*W才能到达最大值。2. 所以我们提出了一个特别简单的方法,就是让特征调头。如下图,其实有两种常见的分类攻击方法也可以一起可视化出来。如(a)这种就是把分类概率最大的类别给压下去(如Fast Gradient),通过给-Wmax,所以有红色的梯度传播方向沿着反Wmax;如(b)还有一种就是把最不可能的类别的特征给拉上来(如Least-likely),所以红色的梯度沿着Wmin。3. 这两种分类攻击方法在传统分类问题上当然是很直接有效的。但由于检索问题中测试集都是没见过的类别(没见过的鸟种),所以自然f的分布没有那么紧密贴合Wmax或者Wmin,因此我们的策略很简单,既然有了f,那我们直接把f往-f去移动就好了,如图(c)。这样在特征匹配阶段,原来排名高的结果,理想情况下,与-f算cos similarity,从接近1变到接近-1,反而会排到最低。达成了我们攻击检索排序的效果。4. 一个小extension。在检索问题中,我们还常用multi-scale来做query augmentation,所以我们也研究了一下怎么在这种情况下维持攻击效果。(主要难点在于resize操作可能把一些小却关键的抖动给smooth了。)其实我们应对的方法也很简单,就如model ensemble一样,我们把多个尺度的adversarial gradient做个ensemble平均就好。

实验

1. 在三个数据集三个指标下,我们固定了抖动幅度也就是横坐标的epsilon,比较在同样抖动幅度下哪一种方法能使检索模型犯更多错。我们的方法是黄色线 都处在最下面,也就是攻击效果更好。

2. 同时我们也提供了在5个数据集上(Food,CUB,Market,Oxford,Paris)的定量实验结果3. 为了展示模型的机制,我们也尝试攻击了Cifar10上的分类模型。可以看到我们改变最后一层特征的策略,对于top-5也有很强的压制力。对于top-1,由于没有拉一个候选类别上来,所以会比least-likely略低一些,但也差不多。4. 黑盒攻击我们也尝试了使用ResNet50生成的攻击样本去攻击一个黑盒的DenseNet模型(这个模型的参数我们是不可获取的)。发现也能取得比较好的迁移攻击能力。5. 对抗防御我们采用online adversarial training的方式来训练一个防御模型。我们发现他在接受新的白盒攻击的时候依然是不行的,但是比完全没有防御的模型在小抖动上会更稳定一些(掉点少一些)。6. 特征移动的可视化这也是我觉得最喜欢的一个实验。我们利用Cifar10,把最后分类层的维度改为2,来plot分类层的feature的变化。如下图,随着抖动幅度epsilon的变大,我们可以看到样本的特征慢慢「调头」了。比如大部分橙色的特征就移动到对面去了。

原文链接:

https://zhuanlan.zhihu.com/p/593319732

相关文章
|
1月前
|
人工智能 自然语言处理 监控
构建AI智能体:二十七、大模型如何“考出好成绩”:详解内在评测与外在评测方法
本文系统介绍了语言模型评测的两种主要方法:内在评测和外在评测。内在评测聚焦模型基础语言能力,核心指标困惑度(PPL)反映模型预测准确性,计算过程包括条件概率、对数概率和及指数转换。外在评测通过具体任务表现评估模型实用性,采用多层级评估策略(精确匹配、变体匹配、关键词分析和语义评估)。文章详细阐述了评测流程、指标计算方法和代码实现,强调两者结合使用的重要性:内在评测看基本功,外在评测检验实战能力。评测应持续进行,为模型选型、优化部署提供客观依据,同时关注公平性和领域适应性。
245 10
|
算法
【CS50x】 Tideman 题解(上)
【CS50x】 Tideman 题解(上)
1097 0
【CS50x】 Tideman 题解(上)
|
计算机视觉
Opencv学习笔记(五):cv2.putText()和cv2.rectangle()详细理解
这篇文章详细介绍了OpenCV库中的`cv2.putText()`和`cv2.rectangle()`函数的使用方法,并通过一个实战例子展示了如何使用这些函数在图像上绘制文字和矩形框。
1309 0
Opencv学习笔记(五):cv2.putText()和cv2.rectangle()详细理解
|
人工智能 C++ 计算机视觉
AI计算机视觉笔记四:行人属性识别
本文分享了一个行人属性分析系统,能够识别并标注行人的多种属性。该项目代码源自公众号“渡码”的项目,作者在Win10环境下成功复现了整个项目,并详细记录了过程。系统通过YOLOv5识别行人,用ByteTrack跟踪同一行人,并训练一个多标签图像分类网络来识别行人的26种属性。文中详细介绍了环境搭建和测试步骤,包括安装Anaconda、创建虚拟环境、安装所需库以及测试代码等。如需完整代码或有任何问题,请联系博主。源码已上传至GitHub。
|
Ubuntu TensorFlow 算法框架/工具
NVIDIA Triton系列05-安装服务器软件
本文介绍了NVIDIA Triton推理服务器的安装方法,涵盖源代码编译、可执行文件安装及Docker容器部署三种方式。重点讲解了在NVIDIA Jetson AGX Orin设备上的安装步骤,适合Ubuntu 18及以上系统。通过检查HTTP端口状态确认服务器运行正常,为后续客户端软件安装做准备。
775 0
NVIDIA Triton系列05-安装服务器软件
|
人工智能 API 数据库
Qwen-Agent功能调用实践探索
本文详细解析了Qwen-Agent的核心功能——功能调用,涵盖其定义、工作流程、重要性和实际应用,通过实例展示了如何在Qwen-Agent中利用此功能与外部工具和API互动,扩展AI应用范围。
|
机器人
ROS2教程 04 话题Topic
本文是关于ROS2(机器人操作系统2)中话题(Topic)机制的教程,详细介绍了ROS2中话题的命令使用,包括列出、回显、发布、信息查询、类型查询等功能,并通过示例代码展示了如何创建发布者(Publisher)和订阅者(Subscriber)节点,以及如何测试发布-话题-订阅通信。
2013 1
ROS2教程 04 话题Topic
|
机器人 网络性能优化 Python
ROS2教程 10 launch
这篇文章是关于ROS2(Robot Operating System 2)的launch文件的详细教程,包括如何创建和使用launch文件来启动ROS2节点,以及如何通过参数、命名空间和条件判断等高级特性来控制节点的启动行为。
762 0
|
存储 自然语言处理 Java
HanLP — 双数组字典树 (Double-array Trie) 实现原理 -- 代码 + 图文,看不懂你来打我
HanLP — 双数组字典树 (Double-array Trie) 实现原理 -- 代码 + 图文,看不懂你来打我
389 0