ICLR 2023 Spotlight | 2D图像脑补3D人体,衣服随便搭,还能改动作

简介: ICLR 2023 Spotlight | 2D图像脑补3D人体,衣服随便搭,还能改动作


在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。






背景

利用 NeRF 提供的可微渲染算法,三维生成算法,例如 EG3D、StyleSDF,在静态物体类别的生成上已经有了非常好的效果。但是人体相较于人脸或者 CAD 模型等类别,在外观和几何上有更大的复杂度,并且人体是可形变的,因此从二维图片中学习三维人体生成仍然是非常困难的任务。研究人员在这个任务上已经有了一些尝试,例如 ENARF-GAN、GNARF,但是受限于低效的人体表达,他们无法实现高分辨率的生成,因此生成质量也非常低。

为了解决这个问题,本文提出了高效的组合的三维人体 NeRF 表示,用以实现高分辨率的(512x256)三维人体 GAN 训练与生成。下面将介绍本文提出的人体 NeRF 表示,以及三维人体 GAN 训练框架。

高效的人体 NeRF 表示

本文提出的人体 NeRF 基于参数化人体模型 SMPL,它提供了方便的人体姿势以及形状的控制。进行 NeRF 建模时,如下图所示,本文将人体分为 16 个部分。每一个部分对应于一个小的 NeRF 网络进行局部的建模。在渲染每一个局部的时候,本文只需要推理局部 NeRF。这种稀疏的渲染方式,在较低的计算资源下,也可以实现原生高分辨率的渲染。

例如,渲染体型动作参数分别为的人体时,首先根据相机参数采样光线;光线上的采样点根据与 SMPL 模型的相对关系进行反向蒙皮操作(inverse linear blend skinning),将 posed 空间中的采样点转化到 canonical 空间中。接着计算 Canonical 空间的采样点属于某个或者某几个局部 NeRF 的 bounding box 中,再进行 NeRF 模型的推理,得到每个采样点对应的颜色与密度;当某个采样点落到多个局部 NeRF 的重叠区域,则会对每个 NeRF 模型进行推理,将多个结果用 window function 进行插值;最后这些信息被用于光线的积分,得到最终的渲染图。


三维人体 GAN 框架

基于提出的高效的人体 NeRF 表达,本文实现了三维人体 GAN 训练框架。在每一次训练迭代中,本文首先从数据集中采样一个 SMPL 的参数以及相机参数,并随机生成一个高斯噪声 z。利用本文提出的人体 NeRF,本文可以将采样出的参数渲染成一张二维人体图片,作为假样本。再利用数据集中的真实样本,本文进行 GAN 的对抗训练。


极度不平衡的数据集

二维人体数据集,例如 DeepFashion,通常是为二维视觉任务准备的,因此人体的姿态多样性非常受限。为了量化不平衡的程度,本文统计了 DeepFashion 中模特脸部朝向的频率。如下图所示,橙色的线代表了 DeepFashion 中人脸朝向的分布,可见是极度不平衡的,对于学习三维人体表征造成了困难。为了缓解这一问题,我们提出了由人体姿态指导的采样方式,将分布曲线拉平,如下图中其他颜色的线所示。这可以让训练过程中的模型见到更多样以及更大角度的人体图片,从而帮助三维人体几何的学习。我们对采样参数进行了实验分析,从下面的表格中可见,加上人体姿态指导的采样方式后,虽然图像质量(FID)会有些微下降,但是学出的三维几何(Depth)显著变好。



高质量的生成结果

下图展示了一些 EVA3D 的生成结果,EVA3D 可以随机采样人体样貌,并可控制渲染相机参数,人体姿势以及体型。


本文在四个大规模人体数据集上进行了实验,分别是 DeepFashion,SHHQ,UBCFashion,AIST。该研究对比了最先进的静态三维物体生成算法 EG3D 与 StyleSDF。同时研究者也比较了专门针对三维人生成的算法 ENARF-GAN。在指标的选择上,本文兼顾渲染质量的评估(FID/KID)、人体控制的准确程度(PCK)以及几何生成的质量(Depth)。如下图所示,本文在所有数据集,所有指标上均大幅超越之前的方案。


应用潜力

最后,本文也展示了 EVA3D 的一些应用潜力。首先,该研究测试了在隐空间中进行差值。如下图所示,本文能够在两个三维人之间进行平滑的变化,且中间结果均保持较高的质量。此外,本文也进行了 GAN inversion 的实验,研究者使用二维 GAN inversion 中常用的算法 Pivotal Tuning Inversion。如下面右图所示,该方法可以较好的还原重建目标的外观,但是几何部分丢失了很多细节。可见,三维 GAN 的 inversion 仍然是一个很有挑战性的任务。


结语

本文提出了首个高清三维人体 NeRF 生成算法 EVA3D,并且仅需使用二维人体图像数据即可训练。EVA3D 在多个大规模人体数据集上性能达到最佳,并且展现出了在下游任务上进行应用的潜力。EVA3D 的训练与测试代码均已经开源,欢迎大家前去试用!

相关文章
|
3月前
|
机器学习/深度学习 人工智能 边缘计算
AI如何解决城市禁养犬巡查难题:快瞳智能识别算法实战解析
传统人工巡查城市禁养犬存在效率低、漏检率高难题。快瞳科技通过禁养烈性犬识别与遛狗不牵绳检测算法,结合边缘计算部署,实现了对不文明养犬行为的实时发现、取证与预警。该技术将识别准确率提升至98%以上,使管理模式从被动处置转向主动发现,为构建文明养犬环境提供了高效的AI解决方案。
|
数据采集 机器学习/深度学习 人工智能
Bert-vits2-2.3-Final,Bert-vits2最终版一键整合包(复刻生化危机艾达王)
近日,Bert-vits2发布了最新的版本2.3-final,意为最终版,修复了一些已知的bug,添加基于 WavLM 的 Discriminator(来源于 StyleTTS2),令人意外的是,因情感控制效果不佳,去除了 CLAP情感模型,换成了相对简单的 BERT 融合语义方式。
Bert-vits2-2.3-Final,Bert-vits2最终版一键整合包(复刻生化危机艾达王)
|
4月前
|
算法 API 流计算
《3D古城场景角色碰撞优化的实战指南》
本文聚焦开放世界3A项目“燕云古城废墟”场景的角色物理碰撞优化,记录从解决“穿模”“帧率骤降”等核心问题切入的工程化实践。先针对静态物体碰撞体冗余,设计“层级碰撞体”方案并制定精度规范,大幅降低计算量;再通过“预破碎资源池”优化可破坏物体,减少实时破碎的性能消耗;开发“动态碰撞剔除系统”,基于距离与视野实现碰撞计算按需触发;结合移动端特性,通过碰撞简化与物理步长调整完成多设备适配;最后构建“碰撞-动画协同系统”,提升交互真实感。
287 32
|
3月前
|
人工智能 双11 开发者
中小电商卖家福音!用AI 3分钟搞定高转化主图+详情页!
还在为电商设计成本高、效率低发愁?阿里云百炼全新推出「一键生成电商组图」功能,AI智能生成主图、详情页等视觉素材,零设计基础也能快速出图!限时参与活动,赢定制好礼,更有超值Tokens优惠包,助力爆款打造!
|
4月前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。
|
5月前
|
Web App开发 Linux Android开发
实战爬取某小说网站内容 -自带源码
爬去某小说网站,生成并下载下来
244 0
|
3月前
|
数据可视化 API 开发工具
Unity3D 2023 游戏开发软件完整部署指南:安装步骤、激活方法及安装包
Unity 2023是一款多功能游戏开发引擎,支持3D游戏、建筑可视化与实时动画创作。新增对Apple Vision Pro的visionOS支持,强化XR设备兼容性,优化多平台图形性能,提升开发效率。
545 1
|
3月前
|
边缘计算 JavaScript 前端开发
「玩透ESA」别只把 ESA 当 CDN 用!它的“边缘函数”如何极大扩展 DCDN 场景
阿里云ESA不止是CDN,更是一个可编程的边缘平台。通过边缘函数(ER),开发者能在全球3200+节点运行JavaScript代码,实现A/B测试、API鉴权、动态响应等场景,将逻辑前置到离用户最近处,实现毫秒级响应与源站减负,开启“编程思维”的边缘计算新时代。
314 1
|
Python
让我们一起用Pygame Zero 画圆形 (空心圆圈、实心圆、多个小球、多层同心圆、随机颜色同心圆、有渐变效果填充圆)
让我们一起用Pygame Zero 画圆形 (空心圆圈、实心圆、多个小球、多层同心圆、随机颜色同心圆、有渐变效果填充圆)
438 31
|
机器学习/深度学习 人工智能 自然语言处理
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。
1046 19
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制

热门文章

最新文章