CVPR 2018:阿里提出应用 LocalizedGAN 进行半监督训练

简介: GAN自诞生以来吸引了众多相关的研究,并在理论、算法和应用方面取得了很多重大的突破。我们试图从一个全新的几何角度,用局部的观点建立一种与之前经典GAN模型所采用的整体方法不同的理论和模型,并以此建立和半监督机器学习中Laplace-Beltrami算子的联系,使之不再局限于传统的图模型(Graph)方法,并在用少量标注样本训练深度学习模型上取得了优异的性能;同时我们还展示了如果用Localized GAN (LGAN)对给定图像在局部坐标系下进行编辑修改,从而获得具有不同角度、姿态和风格的新图像;我们还将进一步揭示如何从流型切向量独立性的角度来解释和解决GAN的mode collapse问题。

该工作由UCF齐国君教授领导的UCF MAPLE 实验室(Machine Perception and Learning)和阿里巴巴华先胜博士领导的城市大脑机器视觉研究组合作完成,并将发表在CVPR 2018上。

eb9418de10026fc31a35783da25991e6c36cca2d

Guo-Jun Qi, LihengZhang, Hao Hu, Marzieh Edraki, Jingdong Wang and Xian-Sheng Hua. Global versusLocalized Generative Adversarial Nets, in CVPR 2018. [pdf]

GAN和基于图模型的半监督机器学习的关系

GAN除了用来生成数据,我们认为一个非常重要作用是:我们第一次有了一个比较理想的工具,可以用来表示和描述数据流型(manifold)。之前,如果我们想表示流型,一般是借助于一个图模型(Graph)。在图模型里,我们用节点表示数据点,用边表示数据直接的相似性。有了Graph,我们可以定量计算数据点上函数的变化。比如,在分类问题中,我们感兴趣的函数是分类函数,输出的是数据点的标签。有了基于Graph的流型,我们就可以建立一个分类模型:它输出的分类标签在相似样本上具有最小的变化。这个就是一种平滑性的假设,是基于图的半监督方法的核心假设。

d1dc7143fb110fcb22e044a39e994a8ed9be56da

上图:基于图的流型表示和半监督分类。

尽管这种基于图的半监督方法取得了很大的成功,但是它的缺点也是很明显的。当数据点数量非常巨大的时候,构建这样一个Graph的代价会非常大。为了解决这个问题, Graph为我们提供了一个很好的基础。通过训练得到的生成器G(z),其实就是一个非常好的流型模型。这里z就是流型上的参数坐标,通过不断变化z,我们就可以在高维空间中划出一个流型结构。

有了这样一个流型和它的描述G,我们可以在数据流型上研究各种几何结构。比如切向量空间、曲率,进而去定义在流型上,沿着各个切向量,函数会如何变化等等。好了,这里GAN就和半监督学习联系起来了。以前我们是用Graph这种离散的结果去研究分类函数的变化,并通过最小化这种变化去得到平滑性假设。

现在,有了流型直接的参数化描述G(z),我们就能直接去刻画一个函数(比如分类问题中的分类器)在流型上的变化,进而去建立一个基于这种参数化流型的半监督分类理论,而非去借助基于图的流型模型。

具体来说,半监督图流型中,我们常用到Laplacian矩阵来做训练;现在,有了参数化的流型后,我们就可以直接定义Laplace-Beltrami算子,从而实现半监督的训练。下面是基于这个方法在一些数据集上得到的结果。更多的结果可以参考我们的论文“Global versus Localized Generative Adversarial Networks“。

03730e234f78b629fc43e3ffba6ebe473a59fca7

上表:在SVHN, CIFAR-10和CIFAR-100上的半监督学习效果。

用全局还是局部坐标来研究GAN?

这里,有个比较精细的问题。通常的GAN模型,得到的是一个全局的参数话模型:我们只有一个z变量去参数化整个流型。事实上,在数学上,这种整体的参数化王是不存在的,比如我们无法用一个参数坐标去覆盖整个球面。这时我们往往要借助于通过若干个局部的坐标系去覆盖整个流型。

同时,使用局部坐标系的另一个更加实际的好处是,我们给定一个目标数据点x后,整体坐标系G(z)要求我们必须知道对应的一个参数坐标z;而使用局部坐标系后,我们就直接可以在x附近去建立一个局部坐标系G(x,z)去研究流型周围的几何结构,而不用去解一个逆问题去去它对应的z了。这个极大地方便了我们处理流型上不同数据点。

3320680971b5073519c35db278ffc63b8033ade7

上图:流型的局部参数化表示。

沿着这个思路,我们可以利用参数化的局部坐标和它表示的流型来研究一系列问题。

1. 比较理论的研究可以专注于,有了这些局部参数表示,如何去定义出一整套黎曼流型的数学结构,比如局部的曲率,黎曼度量,和如果沿着流型去算测地线和两个数据点之间的测地距离。

2. 从应用的角度,给定了一个图像x,用局部表示G(x,z)可以对这个x在它的局部领域中做各种编辑操作或者控制图像的各种属性,从而可以帮助我们生成想要的图像;比如不同角度的人脸、人体姿态、物体,甚至不同风格、表现不同情感的图像等等。这在安防、内容生成、虚拟现实等领域都会有广泛的应用前景。

从几何角度研究Mode collapse问题

当然,从几何和流型参数化的角度还可以给出对GAN更深入的理解,比如对mode collapse问题。在GAN的相关研究中,mode collapse是一个被广泛关注的问题。有很多相关的论文在从不同角度来研究和解决这个问题。

而基于Localized GAN所揭示的几何方法,我们可以从流型局部崩溃的角度来

解释和避免GAN的modecollapse。具体来说,给定了一个z,当z发生变化的时候,对应的G(z)没有变化,那么在这个局部,GAN就发生了mode collapse,也就是不能产生不断连续变化的样本。这个现象从几何上来看,就是对应的流型在这个局部点处,沿着不同的切向量方向不再有变化。换言之,所有切向量不再彼此相互独立--某些切向量要么消失,要么相互之间变得线性相关,从而导致流型的维度在局部出现缺陷(dimensiondeficient)。

为了解决这个问题,最直接的是我们可以给流型的切向量加上一个正交约束(Orthonormalconstraint),从而避免这种局部的维度缺陷。下图是在CelebA 数据集上得到的结果。可以看到,通过对不同的切向量加上正交化的约束,我们可以在不同参数方向上成功地得到不同的变化。

0251b9baec1f31870d4bc0f36deda3422d0d61e4

上图:在给定输入图像的局部坐标系下对人脸的不同属性进行编辑。

值得注意的是,尽管我们是从局部GAN的角度推导和实现了对切向量的正交化约束,这个思路和方法同样适用于传统的整体GAN模型。我们只需要在训练整体GAN模型的同时,在每个训练数据样本或者一个batch的子集上也加上这个约束来求取相应的下降梯度就同样可以训练整体GAN模型;这个方向可以引申出未来的相关工作


原文发布时间为:2018-05-11

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:CVPR 2018:阿里提出应用 LocalizedGAN 进行半监督训练

相关文章
|
11天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3268 9
|
3天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
13天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3325 23
|
7天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2350 4
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
26天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23598 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
13天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2835 3
|
4天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
908 2
|
11天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)

热门文章

最新文章