斯坦福“黑盒学习”研究:使用神经变分推理的无向图模型,可替代“采样”

简介: 斯坦福大学的一组研究人员在NIPS 2017发表论文,使用神经变分推理的无向图模型,可替代采样。

机器学习中的许多问题可以自然地用无向图模型的语言表达。在这里,我们提出了无向模型的黑箱学习和推理算法,优化了模型的对数似然的变分近似。我们的方法的核心是我们表示为灵活神经网络的函数q参数化配分函数的上限。它在学习过程中使得配分函数成为可能,加速采样,并通过统一的变分推理框架来训练各种混合有向/无向模型。我们经验性地证明了我们的方法在几个流行的生成建模数据集上的有效性。

578c9e9286eb5baa9b460a92ae3ae51c98182380

介绍

机器学习中的许多问题可以自然地用无向图模型的语言表达。无向图模型用于计算机视觉、语音识别、社会科学、深度学习等其他领域。许多基本的机器学习问题都以无向模型为中心,然而,这类分布的推理和学习会带来很大的计算挑战。

在这里,我们尝试通过针对无向概率图模型P的新变分推理和学习技术来解决这些挑战。我们方法的核心是,无向概率模型P的对数划分函数的上限是由一个近似分布q来表示的,我们表示为一个灵活的神经网络。当q = p时,我们的界是紧密的,对q感兴趣的类在q的参数中是凸的。最有趣的是,它导致了对数似然函数log p的下限,这使得我们能够在一个类似于黑盒变分推理的变分框架中拟合无向模型。

我们的方法相比以前的方法有了许多优点。首先,它能够以黑箱方式训练无向模型,即我们不需要知道模型的结构来计算梯度估计(例如,如在吉布斯采样中那样)。相反,我们的估计只需要评估模型的非标准化概率。在q和p联合优化时,我们的界也提供了一种在学习过程中跟踪配分函数的方法。在推理时,从我初始化的MCMC链(或者它本身可以提供样本)的无向模型中,学习的近似分布q可以用来加速采样。此外,我们的方法自然地集成了最近的有向图模型的变分推理方法。我们预计我们的方法将在自动化概率推理系统中最为有用。

作为我们如何使用这些方法的一个实例,我们研究了不同类别的混合有向/无向模型,并展示了如何在一个统一的黑箱神经变分推理框架中对它们进行训练。那些混合模型已经在早期的深度学习文献中很流行,并从神经科学的原理中获得灵感。它们对相同数量的变量也具有较高的建模能力。相当有趣的是,我们确定了设置使模型也更容易训练。

实验

对近似分布可视化

8b44b62dc140c99a383edae332d75500f789903b

我们训练了限玻尔兹曼机(RBM)模型,对q的每一步执行两个梯度步骤。上图显示了混合伯努利q的每个组分的平均分布; 人们可以在其中区分各种数字的形状。这证实q确实接近于p。

加速无向模型的采样

b507f905ea66d44de52ab56e2e81737e5689c629

模型完成训练后,我们可以用近似q来初始化一个MCMC采样链。 由于q是p的粗略近似,因此产生的链应该混合得更快。为了证实这个想法,我们在随机初始化的吉布斯(Gibbs)抽样链(顶部)以及从q(底部)样本初始化的链中绘制相邻图形样本。后一种方法在几个步骤中看起来的数字似乎是可信的,而前者产生样本是比较模糊的。

相关研究

其实,我们的研究主要启发于对变分自编码器和相关模型的黑盒变分推理,其中,涉及对由神经网络参数化的近似后验概率进行拟合。而我们的研究为无向模型提供了类似的方法。广泛应用的无向模型包括受限深度玻尔兹曼机(Restricted and Deep Boltzmann Machines)以及深度信念网络(Deep Belief Networks)。而与我们的研究最为接近的就是离散的VAE模型。然而,Rolfe试图对p(x|z)进行有效的优化,而RBM的先验p(z)是使用PCD进行优化的。在我们的研究中是使用标准技术来对p(x|z)进行优化的,并且将着重关注p(z)。

更普遍地来讲,我们的研究提出了一种替代性方法,可以替代基于采样的学习方法,而大多数无向模型的变分方法都是以推理为中心的。我们的方法可以扩展到中小型数据集,并且在混合有向/无向生成式模型(hybrid directed-undirected generative models)中最为有用。它的速度可与PCD方法媲美,并能够提供附加的益处,如分区函数追踪(partition function tracking)和加速采样。最重要的是,我们的算法是黑盒式的,并且在不需要知道模型结构的情况下就可以推导出梯度或进行分区函数评估。我们预期我们的方法将在诸如Edward这样的自动推理系统中最为有用。

另外,我们方法的可扩展性局限性主要在于,当q与P不能进行很好的拟合时,对梯度和分区函数进行蒙特卡罗评估中的高方差。在实际中,我们发现诸如拟似然(pseudo-likelihood)这样的简单度量法在诊断这个问题上是非常有效的。当用RBM先验对深度生成模型进行训练时,我们注意到弱q的引入模型崩溃了(但是训练仍然收敛)。然后我们通过增加q的复杂性并使用更多的样本解决了这些问题。最后,我们还发现q梯度的得分函数评估器不能很好地向较高的维度扩展。而更好的梯度评估器可能会进一步改进我们的方法。

结论

综上所述,本文提出了新的无向模型的变分学习和推理算法,从重要抽样和χ2散度最小化的角度出发,优化了配分函数的上限。我们的方法通过黑匣子的方式训练无向模型,并将在自动推理系统中产生作用。我们的框架在速度方面与采样方法相比具有竞争性,并且提供了额外的优点,如配分函数跟踪和加速采样。我们的方法也可以用来训练使用统一变分框架的混合有向/无向模型。最有趣的是,它使具有离散潜变量的生成模型更具表现力和更容易训练。


原文发布时间为:2017-11-12

本文作者:Volodymyr Kuleshov、Stefano Ermon 

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:斯坦福“黑盒学习”研究:使用神经变分推理的无向图模型,可替代“采样”

相关文章
|
5月前
|
数据采集 缓存 NoSQL
分布式新闻数据采集系统的同步效率优化实战
本文介绍了一个针对高频新闻站点的分布式爬虫系统优化方案。通过引入异步任务机制、本地缓存池、Redis pipeline 批量写入及身份池策略,系统采集效率提升近两倍,数据同步延迟显著降低,实现了分钟级热点追踪能力,为实时舆情监控与分析提供了高效、稳定的数据支持。
194 1
分布式新闻数据采集系统的同步效率优化实战
|
人工智能 自然语言处理 物联网
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
LLM2CLIP 为多模态学习提供了一种新的范式,通过整合 LLM 的强大功能来增强 CLIP 模型。
637 3
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
|
12月前
|
Ubuntu 网络协议 Linux
快速部署WSL(Windows Subsystem for Linux)
WSL提供了一种轻量级的方法,使开发者能够在Windows上无缝运行Linux环境。通过本文介绍的步骤,可以快速安装、配置和使用WSL,以满足开发和测试的需求。
2153 8
|
Java Android开发
Android Mediatek 禁用 USB 权限请求和声音提示 & 解决USB HID设备不识别问题(附带USB调试过程)
Android Mediatek 禁用 USB 权限请求和声音提示 & 解决USB HID设备不识别问题(附带USB调试过程)
772 0
|
移动开发 API
2024阿里云域名优惠口令及优惠口令获取方法(新)
2024阿里云域名优惠口令及优惠口令获取方法(新),2023阿里云com域名续费优惠口令“com批量注册更享优惠”,cn域名续费优惠口令“cn注册多个价格更优”
1170 0
2024阿里云域名优惠口令及优惠口令获取方法(新)
|
存储 索引 Python
通过 Python 把图片转换为 ASCII art,好玩!
相信很多人都知道 ASCII art,这是一种使用可打印 ASCII 字符集来构图的图形设计技术。这种艺术最简单的形式就是表情符号,例如:-) 或 :-3,今天我们就来制作更为复杂的图像
通过 Python 把图片转换为 ASCII art,好玩!
|
8天前
|
云安全 监控 安全
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1433 8