ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集

简介: ICLR2021和CVPR2021双料大作,谷歌最新成果,融合单类分类与深度表示的自监督学习的异常检测算法,超越多个数据集基准。

异常检测(有时称为离群值检测或分布外检测)是许多领域中最常见的机器学习应用之一,从制造业中的缺陷检测到金融中的诈骗交易检测。


它常用于收集大量正常样本很容易,但异常数据很少且难以找到的情况。经典算法如单类分类算法中的单类支持向量机(OC-SVM)或支持向量数据表示(SVDD)常用于异常检测,不幸的是,这些经典算法并没有从使强大的机器学习大放异彩。


反而,通过自监督学习包括旋转预测(rotation prediction)和对比学习(contrastive learning)从无标记数据中学习视觉特征表示,将单类分类器与深度表示学习的成功结合起来,在异常数据检测上取得了长足的进展。


深度单类分类(Deep One-Class Classification)的两阶段框架


【问题】虽然端到端学习已经在许多机器学习问题上取得了成功,包括深度学习算法设计,但这种用于深度单类分类器的方法往往会出现退化,即不管输入是什么,模型都输出相同的结果。


为了解决这个问题,谷歌推出了一个两阶段(two-stage)框架。


该框架发表在在ICLR2021的“Learning and Evaluating Representations for Deep One-class Classification”中,利用自监督表示学习的最新进展和经典单类算法,在各类基准测试中取得了最先进的指标,包括CIFAR、f-MNIST、Cat vs Dog和CelebA,而且训练还很简单。


随后,在CVPR2021上发表了“CutPaste: Self-Supervised Learning for Anomaly Detection and Localization”,在同框架下提出一种新的表示学习算法,用于工业缺陷检测,在MVTec基准上同样达到了新的最高水平。


在第一阶段,模型通过自监督学习深度特征表示。在第二阶段,采用单类分类算法,如OC-SVM或核密度估计,将第一阶段学习的特征表示作为输入。


这种两阶段算法不仅对退化具有鲁棒性,而且可以建立更精确的单类分类器。此外,该框架并不局限于特定的表示学习和单类分类算法——即可以很容易地在不同算法中即插即用。10.jpg语义异常检测


谷歌用两种具有代表性的自监督表示学习算法,旋转预测和对比学习,来测试该两阶段框架在异常检测方面的有效性。


旋转预测,是指模型对输入图像旋转角度的检测能力。之所以选用旋转预测,是因为端到端旋转预测网络的良好性能,已被广泛应用于一类分类研究。现有的方法通常使用内置的旋转预测分类器来学习表示来进行异常检测,但由于内置的分类器没有经过训练来进行单类分类,所以这种方法是次优的。


对比学习,是指模型学习把从相同图像转换来的样本放在一起,同时将其他图像转换而来的推开。在训练过程中,当图像从数据集中提取时,每个图像都经过两次简单的增强(如随机裁剪或颜色变化)。


通过最小化与同一图像之间的距离以鼓励一致性,同时最大化不同图像之间的距离。通常的对比学习会收敛于这样一种解,即所有正规样本的表示都均匀地分布在一个球面上。这是有问题的,因为大多数单类算法通过检查测试示例与正常训练示例的接近程度来确定离群值,但当所有正态示例都均匀分布在整个空间时,离群值就会不太容易检出。


为了解决这一问题,谷歌提出了单类对比学习的分布增广(DA)方法。其思想是,模型不是仅仅从训练数据中学习表示,而是从训练数据加上增强样本的并集中学习,其中增强训练样本可以几何变换,如旋转或水平翻转,来增加分布。使用DA,训练数据不再均匀分布在表示空间中,因为一些区域被增强数据占据。

11.jpg【旋转预测实验】


在计算机视觉中常用的数据集上,包括CIFAR10和CIFAR-100、Fashion MNIST和Cat vs Dog,通过area under receiver operating characteristic curve(AUC)来评估单类分类的性能。例如,当狗的图像是inlier的时候,猫的图像是如何被检测出异常outlier的。

12.jpg

考虑到次优的内置旋转预测分类器通常用于旋转预测,所以,在框架的第二阶段,只需用一个类分类器替换第一阶段用于学习表示的内置旋转分类器,就可以显著提高性能,从86到91.3 AUC。而且,该两阶段框架在上述所有基准上都实现了最先进的性能。

【对比学习实验】


在真实世界的异常检测应用中,异常通常是由局部缺陷定义的,而不是完全不同的语义,例如,纹理异常检测。


13.jpg尽管旋转预测和分布增强对比学习表示在语义异常检测方面表现出了最先进的性能,但这些算法在纹理异常检测方面表现不佳。相反,对比学习可能更适合这种场景。


第二篇论文中,谷歌提出了一种新的纹理异常检测的自监督学习算法。整体异常检测遵循两阶段框架,但第一阶段,模型学习图像的深度表示,专门训练来预测图像是否通过简单的剪贴数据增强。(剪贴增强:通过随机剪切一个给定图像的局部补丁,并将其粘贴回同一图像的不同位置)。学习区分常规样本和剪贴增强样本,有助于提升特征对图像局部不规则性的敏感度。


14.jpg

使用MVTec进行测试,包含15个对象类别的真实缺陷检测数据集来评估上述方法。15.jpg

另外,除了图像级的异常检测外,还使用CutPaste方法来定位异常的位置,即“patch-level”异常检测。通过高斯平滑的上采样来聚合补丁异常分数,并在显示异常位置的热图中可视化它们,这大大改善了异常的定位性能。下表显示了用于本地化评估的像素级AUC。

16.jpg

在这项工作中,谷歌通过引入一个新的2阶段深度单类分类框架,并强调了将构建分类器与学习表示解耦的重要性,以便分类器能够与目标任务一致,进行单类分类。


此外,该方法允许各种自监督表示学习方法的应用,在从语义异常到纹理缺陷检测的各种视觉单类分类应用中取得了最先进的性能。


相关文章
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
Dubbo 应用服务中间件
错误:找不到或无法加载主类 org.apache.zookeeper.server.quorum.QuorumPeerMain
本文主要讲解如何解决Zookeeper启动时出现错误:找不到或无法加载主类 org.apache.zookeeper.server.quorum.QuorumPeerMain 的解决方案
3091 0
错误:找不到或无法加载主类 org.apache.zookeeper.server.quorum.QuorumPeerMain
|
3月前
|
人工智能 API 开发者
用 LangChain 驱动本地 Ollama 模型
本文详解如何用LangChain(基于最新Runnable API)调用本地Ollama模型,构建真正可用的私有化大模型应用。涵盖Ollama部署、OpenAI协议对接、Prompt编排、状态化对话(Memory)、工程实践建议等,兼顾安全性、可控性与落地性。(239字)
1084 2
|
运维 监控 算法
时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现
MSET-SPRT是一种结合多元状态估计技术(MSET)与序贯概率比检验(SPRT)的混合框架,专为高维度、强关联数据流的异常检测设计。MSET通过历史数据建模估计系统预期状态,SPRT基于统计推断判定偏差显著性,二者协同实现精准高效的异常识别。本文以Python为例,展示其在模拟数据中的应用,证明其在工业监控、设备健康管理及网络安全等领域的可靠性与有效性。
1314 13
时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现
|
XML JavaScript API
API接口:原理、设计与应用
API,全称应用程序接口,是一些预先定义的函数,目的是提供应用程序与开发人员以访问一组例程的能力,我们可以在不暴露各内部例程的情况下,使用这些例程。API是构建在操作系统或应用程序之间的接口,它充当一个桥梁或纽带,使得不同的应用程序或系统之间可以相互交流和交互。
|
运维 数据可视化 Python
PYTHON中用PROPHET模型对天气时间序列进行预测与异常检测
PYTHON中用PROPHET模型对天气时间序列进行预测与异常检测
|
小程序 JavaScript
微信小程序(二十三)微信小程序左上角返回按钮触发事件
返回上一页按钮只会触发上一页的onShow生命周期函数,并不会触发onLoad函数。 因此我们需要在onShow函数中做一些设置: 大概是操作流程,从日程页跳转至实验列表页,再点击实验列表页 左上角的返回键,返回日程页重新获取页面数据。 我这里直接上代码: 实验列表页代码:
1850 0
微信小程序(二十三)微信小程序左上角返回按钮触发事件
|
Java 数据库连接 mybatis
mybatis返回结果为List<Map<String, Object>>的写法
mybatis返回结果为List<Map<String, Object>>的写法
2255 1
|
存储 分布式计算 资源调度
Spark性能优化之SparkUI
Spark性能优化之SparkUI
659 0
|
存储 缓存 安全
快速入门Kerberos认证
快速入门Kerberos认证
848 0

热门文章

最新文章