仅做两项修改,苹果就让StyleGANv2获得了3D生成能力

简介: 仅做两项修改,苹果就让StyleGANv2获得了3D生成能力
来自苹果和伊利诺伊大学厄巴纳 - 香槟分校的研究者发现只需两项修改就能让 2D GAN 获得 3D 生成能力。


如何让一个已有的 2D GAN 变成 3D 级别?这是一个有趣且实用的问题。

为了解决这个问题,来自苹果和伊利诺伊大学厄巴纳 - 香槟分校的研究者试图尽可能少地修改经典 GAN,即 StyleGANv2。该研究发现只有两个修改是绝对必要的:1)一个多平面图像样式生成器分支,它产生一组以深度为条件的 alpha 图;2)一个以位姿为条件的鉴别器。



论文地址:https://arxiv.org/abs/2207.10642

该研究将生成的输出结果称为「生成型多平面图像(GMPI)」。GMPI 方法不仅渲染质量高,还能保证视图一致。更重要的是,alpha 映射的数量可以动态调整,并且可以在训练和推理阶段有所变化,从而减轻内存问题,在不到半天的时间内以 1024^2 的分辨率快速训练 GMPI。

首先来看一下 GMPI 方法在三个具有挑战性的常见高分辨率数据集(FFHQ、AFHQv2 和 MetFaces)上的效果:





方法简介

该研究通过添加「alpha 分支」来修改经典生成器,并结合简单高效的 alpha 合成渲染。

GMPI 生成方法的框架如下图所示,其中生成器和 alpha 合成渲染器负责生成图像 I_v_tgt,该图像以用户指定的位姿 v_tgt 生成目标对象。保证为不同位姿生成的图像是视图一致的。


「alpha 分支」使用中间表征来生成多平面图像表征 M,其中除了单个图像之外还包含不同深度的 alpha 映射。

更具体地说,该研究为 StyleGANv2 开发了一个新的生成器分支,它产生一组正面平行的 alpha 映射,在本质上类似于多平面图像 (MPI)。该研究首次证明 MPI 可以用作无条件 3D 感知生成模型的场景表征。这个新的 alpha 分支是从头开始训练的,同时针对常规 StyleGANv2 生成器和鉴别器进行微调。将生成的 alpha 映射与 StyleGANv2 的单个标准图像输出相结合,进行端到端的可微多平面样式渲染,该研究实现了不同视图的 3D 感知生成,并保证了视图的一致性。尽管 alpha 映射处理遮挡的能力有限,但渲染非常有效。此外,alpha 映射的数量可以动态调整,甚至可以在训练和推理期间有所不同,从而减轻内存负担。

该研究发现:为了实现 3D 感知,根据具体位姿调整鉴别器(discriminator)是绝对必要的。另一方面,根据 alpha 映射的深度来调整模型也是非常必要的。该研究通过添加额外的 alpha 分支对原始 StyleGANv2 网络进行了简单的修改,如下图 3 所示。


为了获得表现出预期 3D 结构的 alpha 映射,该研究发现需要对 StyleGANv2 进行两次调整:(a)MPI 中任何平面的 alpha 映射预测必须以平面的深度或可学习的 token 为条件;(b) 鉴别器必须以相机位姿为条件。虽然这两个调整似乎很直观,但令人惊讶的是,这两项调整对于 3D 感知归纳偏置来说已经足够了。

另一种改进 alpha 映射的归纳偏置是包含阴影的 3D 渲染。尽管有用,但该研究发现这种归纳偏置对于获得 3D 感知不是必要的。此外,研究者还发现一些经典的 2D GAN 评估指标可能会造成有误导性的结果。


实验

该研究在三个数据集(FFHQ、AFHQv2 和 MetFaces)上分析了各种分辨率的 GMPI。

下表 1 和表 2 提供了速度比较和定量评估结果。在更快的训练下,GMPI 在 256^2 图像上实现了比 SOTA 模型更好的性能,并且可以生成高达 1024^2 的高分辨率结果,这是大多数基线模型无法生成的。



为了分析方法中关键设计的效果,该研究进行了消融实验,结果如下表 3 和图 4 图 5 所示。





感兴趣的读者可以阅读论文原文,了解更多研究细节。

相关文章
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32328 118
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6858 18
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
14天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4831 12
|
16天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5696 21
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
12天前
|
人工智能 JavaScript 安全
Claude Code 安装指南
Claude Code 是 Anthropic 推出的本地 AI 编程助手,支持 Mac/Linux/WSL/Windows 多平台一键安装(Shell/PowerShell/Homebrew/NPM),提供 CLI 交互、代码生成、审查、Git 提交等能力,并内置丰富斜杠命令与自动更新机制。
4324 0
|
16天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
6274 6
|
18天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7774 17

热门文章

最新文章