受压缩感知启发,斯坦福 AI 研究院提出新的无监督表示学习框架!

简介: 非确定性自编码器!

雷锋网(公众号:雷锋网) AI 科技评论按:如今,说到图像领域的生成式模型,大家往往会想到对抗生成网络(GAN)和自编码器(AE)。本文介绍了斯坦福 AI 研究院的研究人员如何从统计压缩感知技术中汲取灵感设计出的非确定性自编码器(该编码器在自编码器的潜在空间中对不确定性进行建模),并巧妙地使用变分技术为其设计目标函数,相较于传统方法,该模型的性能有巨大的提升。斯坦福 AI 研究院将这一成果进行了介绍,雷锋网 AI 科技评论编译如下。

压缩感知技术能够通过低维投影有效地采集和恢复稀疏的高维数据信号。 我们在 AISTATS 2019发表的一篇论文(https://arxiv.org/pdf/1812.10539)中提出了非确定性自编码器(UAE),把低维投影作为自编码器的带噪声的潜在表示,并通过一个可跟踪的变分信息最大化目标直接对信号采样(即编码)和逐步恢复(即解码)的过程进行学习。实验表明,我们在高维数据的统计压缩感知任务中相较于其他方法的性能平均提高了 32% 。

无监督表示学习的广泛目标是学习对输入的数据进行变换,从而简便地捕获到数据分布统计的根本特性。在之前的工作中,研究人员已经从潜变量生成建模、降维和其他角度出发,提出了大量的学习目标和算法。在本文中,我们将介绍一个受压缩感知启发而设计出的新的无监督表示学习框架。首先,我们将从统计压缩感知谈起。

统计压缩感知

能够高效地采集和精确地恢复高维数据的系统构成了压缩感知的基础。这些系统得到了广泛的应用。例如,压缩感知技术已经被成功地用于了包括「设计节能的单像素摄像头」和「加快核磁共振医学成像扫描时间」在内的广泛的应用领域。

TB1d3z6doGF3KVjSZFvXXb_nXXa.jpg

压缩感知的工作流程由两部分组成:

采集(acquisition):一个从高维信号

TB1MY2.dlCw3KVjSZFlXXcJkFXa.jpg

到测量数据

TB1QP23df1H3KVjSZFBXXbSMXXa.jpg

的映射

TB1pXn4dfWG3KVjSZFgXXbTspXa.jpg TB1okr7dkWE3KVjSZSyXXXocXXa.jpg

其中 ϵ 代表测量过程中任意的外部噪声。当 m 远小于 n 时,我们称采集过程是高效的。

恢复(recovery):一个从测量数据 y 到恢复的数据信号

TB1fln7dlWD3KVjSZKPXXap7FXa.jpg

的映射

TB1j224dfWG3KVjSZPcXXbkbXXa.jpg

。当归一化损失(例如

TB1zKf4df5G3KVjSZPxXXbI3XXa.jpg

)很小时,恢复的过程是精确的。

在标准的压缩感知过程中,采集映射 f 在 x 中是典型的线性变换(即对于某个矩阵 

TB1Def4df5G3KVjSZPxXXbI3XXa.jpg

, f(x)=Wx)。在这样的情况下,由于我们拥有的变量数(n)比常量数(m)多,所以该系统是未确定的。为保证得到唯一的、有意义的恢复结果,我们假设信号在一个合适的基上(例如,用于音频数据的傅里叶基、用于图像数据的小波基)是稀疏的。然后,通过某些类型的随机矩阵进行信号采集,并通过求解 LASSO 优化方法进行信号恢复,这样便只需使用少量测量数据(大概是数据维度的对数)就能保证以很高的概率得到唯一的恢复结果。

在这项工作中,我们考虑统计压缩感知的情况,其中我们可以访问一个训练数据信号 x 的数据集 D。我们假设对于某些未知的数据分布  q_data,有

TB1H1f4df5G3KVjSZPxXXbI3XXa.jpg

在训练时:

1. 自然环境向智能体提供一个有限的高维信号数据集 D。

2. 智能体通过优化一个恰当的目标来学习信号采集和恢复的映射 f 和 g。

在测试时:

1.对于一个或多个测试信号

TB1H1f4df5G3KVjSZPxXXbI3XXa.jpg

而言,自然环境向智能体提供压缩后的测量数据

TB1HFv6df1G3KVjSZFkXXaK4XXa.jpg

2.智能体恢复出信号

TB1dt3bdbus3KVjSZKbXXXqkFXa.jpg

,并引入一个L2 范数损失

TB1fT67dlaE3KVjSZLeXXXsSFXa.jpg

为了实现这个过程,智能体的任务是选取信号采集和恢复的映射 f 和 g,从而最小化测试损失。

非确定性自编码器

实际上,在仅仅根据测量数据 y 恢复出信号 x 时,即使智能体可以选出一个信号采集映射 f,仍有两个不确定性的来源。其一是由于随机的测量噪声 ϵ 引起的。其次,信号采集映射 f 通常被参数化为一个精度有限的受限映射族

TB1lpr4dfWG3KVjSZFgXXbTspXa.jpg

(例如,在标准压缩感知中的线性映射或更一般化的神经网络)。假设测量数据 y 的维度比信号 x 的维度要小,即使没有噪声,这样的限制也会阻碍我们学到一个双射映射。

在 f 为线性映射的说明样例中,我们确信不可能实现完全精确的恢复。那么还有什么高效的方式来采集数据呢?在下图中,我们考虑了一个真实数据分布是由两个沿正交方向延伸的二维高斯分布的混合分布的简单情况。我们从这个混合分布中采样出了 100 个点(黑色的点),并考虑了两种将这些数据点的维数降低到一维的方法。

TB1Oin4doWF3KVjSZPhXXXclXXa.jpg

第一种方法是使用主成分分析(PCA)将数据沿着最能导致数据中的变化的方向进行投影。对于上述的二维混合高斯分布的情况,这种方法是通过洋红色线上的蓝点表示的。这条洋红色的线捕获了数据中大部分的变化,但是它将从右下角的高斯分布中采样得到的数据压缩到了一个狭窄的区域中。当多个数据点在低维空间被压缩成重叠的、密集的聚类区域时,在恢复(recovery)过程中就很难消除低维投影与原始数据点之间的关联。

或者,我们可以考虑在绿色的坐标轴上投影(红色的点)。这些投影结果更加分散,这表明恢复过程更加容易(即使与 PCA 相比,这样做会增加投影空间的总方差)。接下来,我们提出了「UAE」框架,它能够精确地学习上面提到的低维投影,使恢复更加准确。

从概率意义上说,信号 x 和测量数据 y 的联合分布可以表示为

TB1uVr4dfWG3KVjSZFgXXbTspXa.jpg

。例如,如果我们将噪声建模为中心各向同性高斯分布,那么似然概率

TB14H6.dlCw3KVjSZFlXXcJkFXa.jpg

就可以被表示为

TB1Ou24doGF3KVjSZFmXXbqPXXa.jpg

。为了学习在存在不确定性的情况下最有利于恢复的参数

TB1Jpr4dfWG3KVjSZFgXXbTspXa.jpg

,我们考虑下面的目标函数:

TB1Yu24doGF3KVjSZFmXXbqPXXa.jpg

上面的目标函数最大化了从测量数据 y 中恢复出信号 x 的对数后验概率,这与上面提到的智能体在测试时的目标是一致的。

变分信息最大化

或者,你可以将上述过程解释为最大化信号 x 和测量数据 y 之间的互信息。为了查看二者之间的联系,请注意数据熵 H(x) 是一个常量,它不会影响优化过程。因此,我们可以将目标函数改写为:

TB1Jlr7dlWD3KVjSZKPXXap7FXa.jpg

遗憾的是,在当前的情况下,估计(和优化)互信息是十分困难和棘手的。为了克服这个困难,同时也能快速地进行恢复,我们建议使用一个互信息变分下界的平摊变体。

特别地,我们考虑一个真实后验概率

TB17oQvX3FY.1VjSZFnXXcFHXXa.jpg

的参数化的变分近似

TB19_L6douF3KVjSZK9XXbVtXXa.jpg

。在这里,

TB1Gpz.dlKw3KVjSZFOXXarDVXa.jpg

表示变分参数。将这个近似带入变分分布会给出如下所示的原始目标函数的变分下界:

 

TB1oe64doGF3KVjSZFmXXbqPXXa.jpg

上面的表达式定义了非确定性自编码器的学习目标,其中数据采集过程可以被看作对数据信号进行编码,而恢复过程则相当于根据测量数据解码出数据信号。

案例分析

实际上,「UAE」目标函数的期望值是通过蒙特卡洛方法来估计的:数据信号 x 是从训练数据集 D 中采样得到的,测量数据 y 是从一个允许重参数化的假设的噪声模型(各向同性的高斯分布)中采样得到的。根据对恢复过程的准确度的度量,我们可以在平摊变分分布

TB1pIj5dliE3KVjSZFMXXbQhVXa.jpg

(例如,方差固定为 l2,拉普拉斯算子固定为 l1 的高斯分布)上做出分布假设,并通过恢复映射 

TB1N8gvX3FY.1VjSZFqXXadbXXa.jpg

 将测量数据 y 映射到 

TB1xIj5dliE3KVjSZFMXXbQhVXa.jpg

的充分统计量上。

举例来说,不妨考虑一个带有已知的标量方差

TB1OLz4doKF3KVjSZFEXXXExFXa.jpg

的各向同性的高斯噪声模型

TB19Fr6dlOD3KVjSZFFXXcn9pXa.jpg

。如果我们令变分分布

TB1pIj5dliE3KVjSZFMXXbQhVXa.jpg

 也为一个带有固定的标量方差的各向同性高斯分布,我们将通过非确定性自编码器(UAE)得到如下所示的最大化目标函数:

TB1I5H4dfWG3KVjSZFPXXXaiXXa.jpg

其中 c 为独立于 φ 和 θ 的正归一化常数。

非确定性自编码器 VS 常用的自编码器

除了对统计压缩感知的提升,非确定性自编码器(UAE)为无监督表示学习提供了一种替代框架,其中压缩的测量值可以被解释为潜在的表示。下面,我们将讨论 UAE 与常用的自编码器在计算方法上有何异同。

标准的自编码器(AE):当潜在空间中没有任何的噪声时,UAE 的学习目标函数就会退化为 AE 的目标函数。

去躁自编码器(DAE):DAE 在观测空间中添加噪声(例如,向数据信号添加噪声),然而 UAE 则是在潜在空间中对不确定性建模。

变分自编码器(VAE):变分自编码器将潜在空间正则化,使其遵循一个先验分布。而在 UAE 中则没有显式的先验,因此在潜在空间上没有 KL 散度正则项(而原始论文中没有对此进行讨论,UAE 的目标函数可以看做 β=0 时的 β-VAE 的特例)。这样就避免了使用 VAE 使存在的问题:使用强大的解码器会忽略潜在的表示。

那么 UAE 是否能像 DAE 和 VAE 那样,可以进行样本外的泛化呢?答案是肯定的!在恰当的假设下,我们说明了 UAE 学到了一个隐式的数据信号分布的生成模型,它可以被用来定义一个马尔科夫链蒙特卡洛(MCMC)采样。更多细节请参阅论文「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」(https://arxiv.org/pdf/1812.10539.pdf)中的定理 1 和推论 1。

TB1eDReaLBj_uVjSZFpXXc0SXXa.jpg

基于 UAE 的用于 q_data 的马尔科夫链采样器示意图。

实验结果概述

我们展示出了一些在下面的图像数据集上进行统计压缩感知的实验结果。在这些实验中,测量数据的个数 m 会变化,并且使用了随机高斯噪声。我们与两种基线进行了对比:

适当的稀疏性诱导基础上的 LASSO

CS-VAE/DCGAN,这是一种最近提出来的压缩感知方法,它通过搜索预训练的生成模型(如 VAE 和 GAN)的潜在空间来寻找潜在向量,从而使恢复损失最小。

MNIST

TB1fpD.dlKw3KVjSZFOXXarDVXa.jpg

测量数据个数 m 变化时的测试的 l2 重建误差(每张图像)

TB17K64doGF3KVjSZFmXXbqPXXa.jpg

测量值的个数为 m=25 时的重建结果。

CelebA

TB14xj3df1H3KVjSZFHXXbKppXa.jpg

测量数据个数 m 变化时的测试的 l2 重建误差(每张图像)

TB1Uf64dgKG3KVjSZFLXXaMvXXa.jpg

测量值的个数为 m=50 时的重建结果。

平均而言,我们观察到,对于所有的数据集和测量值来说,我们取得了 32% 的提升。关于在更多的数据集上的实验结果,以及将 UAE 应用到迁移学习和监督学习中的任务,请参阅我们的论文:

「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」Aditya Grover, Stefano Ermon. AISTATS, 2019。

论文下载地址:https://arxiv.org/pdf/1812.10539 

代码:https://github.com/aditya-grover/uae

via http://ai.stanford.edu/blog/uncertainty-autoencoders/  雷锋网

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
35 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
6天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 框架基础介绍
本文介绍了AI算法、神经网络及其应用,解释了为何神经网络需要训练及AI框架的作用。通过解析深度学习的数学原理与反向求导算法,阐述了AI框架如何作为模型设计、训练和验证的标准工具,支持算法封装、数据调用及计算资源管理,强调了AI框架的发展历程和技术迭代。
29 9
【AI系统】AI 框架基础介绍
|
4天前
|
机器学习/深度学习 人工智能 算法
【AI系统】框架编程范式
编程范式是软件工程中一类典型的编程风格,如函数式、命令式、声明式、面向对象等。它们影响着开发者对程序执行的理解。本文探讨了两种主要的编程范式——声明式编程与命令式编程,特别是在AI框架中的应用,如TensorFlow的声明式编程和PyTorch的命令式编程,分析了这两种范式对AI框架架构设计的影响及主流AI框架在这两种范式上的差异。
27 3
【AI系统】框架编程范式
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI系统】AI 框架作用
深度学习通过多层计算模型学习数据中的复杂结构,实现高级别的数据抽象。例如,CNN能从大量图像中学习猫和狗的特征。本文探讨深度学习原理及其计算中AI框架的应用,强调AI框架如何帮助自动求导,简化模型训练过程,以及在实际应用中的作用。
27 3
【AI系统】AI 框架作用
|
10天前
|
机器学习/深度学习 人工智能 编解码
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
OminiControl 是一个高度通用且参数高效的 AI 图像生成框架,专为扩散变换器模型设计,能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数(0.1%),支持主题驱动控制和空间对齐控制,适用于多种图像生成任务。
47 10
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
|
8天前
|
SQL 存储 人工智能
Vanna:开源 AI 检索生成框架,自动生成精确的 SQL 查询
Vanna 是一个开源的 Python RAG(Retrieval-Augmented Generation)框架,能够基于大型语言模型(LLMs)为数据库生成精确的 SQL 查询。Vanna 支持多种 LLMs、向量数据库和 SQL 数据库,提供高准确性查询,同时确保数据库内容安全私密,不外泄。
56 7
Vanna:开源 AI 检索生成框架,自动生成精确的 SQL 查询
|
8天前
|
人工智能 vr&ar
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。
29 7
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
|
4天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 框架基础介绍
本文介绍了AI算法、神经网络及AI框架的基础概念,探讨了神经网络的作用、训练目的以及AI框架如何简化模型设计、训练与验证过程。文章还概述了AI框架的发展历程和技术演进,强调了国内外主要AI框架的特点及其对AI技术发展的推动作用。
23 2
【AI系统】AI 框架基础介绍
|
9天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
45 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
18天前
|
人工智能 自然语言处理 前端开发
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答
VideoChat 是一款智能音视频内容解读助手,支持批量上传音视频文件并自动转录为文字。通过 AI 技术,它能快速生成内容总结、详细解读和思维导图,并提供智能对话功能,帮助用户更高效地理解和分析音视频内容。
79 6
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答