CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF

《黑客帝国: 觉醒》演示中的灵魂发问:当我们打造出的世界和我们自己的世界同等真实时,那现实到底意味着什么?


还记得去年 12 月,美国电子游戏与软件开发公司 Epic 发布的基于自家虚幻 5 打造的《黑客帝国: 觉醒》的演示吗?Demo 中所展示的主演人物的毛孔毛发级高真实感建模,着实让人惊叹 Epic 的强大技术能力。


据悉,以上演示 Demo 中的人物形象是由 Epic 名下的 MetaHuman Creator 创建生成,该应用可以让用户自由编辑调整目标数字形象的各种面部特征和皮肤细节,甚至于精确编辑调整发型、眼型、妆容等各个局部语义属性,且调整结果具有超逼真的显示渲染效果。


可以说,MetaHumane Creator 在高保真数字人创建与渲染效果方面确立了一个新的标杆。

不过略有瑕疵的是,尽管 MetaHuman 构建的虚拟数字人呈现了超逼真的成像渲染效果,但当我们刻意去观察其合成结果时,却总能发现结果有不够真实的地方。如下图所示。

上述所谈到的不真实感可能是由 MetaHuman 的渲染假设导致的。具体来说,随着图形相关研究技术的发展,该领域其实是在不断修正三维模型的光照渲染模型的,在该过程中也是提出多种三维光照类型,如朗伯光照模型,Phong 光照模型以及 BRDF 光照模型等。然而,由于真实世界的复杂性,这些假设的渲染模型仍是不可避免的会与真实物理世界的渲染存在差异,从而导致相关渲染结果不够真实。

近期,一种新的渲染模型,即最近广为关注的神经辐射场体渲染模型(Neural Radiance Field,缩写 NeRF),有打破上述各种假设枷锁的趋势,以下为一些 NeRF 相关工作的渲染效果。可以发现 NeRF 具有照片级的渲染精度,渲染结果亦具有 GAN 等二维生成模型所不具备的多视角一致性,更是能对玻璃、火焰、液体等进行统一表示。


NeRF 通过神经渲染与神经隐式表示来自适应地学习适合目标渲染对象的渲染方式,这使得 NeRF 相关的渲染假设少于上述传统的渲染方法,从而使得 NeRF 的渲染逻辑与真实世界的渲染更加贴合。

高保真人头参数化模型 HeadNeRF,可创建与编辑高保真数字人

基于上述观察,来自中科大张举勇教授课题组提出了 HeadNeRF,一种基于 NeRF 的高效全息人脸头部参数化模型,该工作发表于 CVPR 2022,相关代码已开源。


HeadNeRF

效果上,HeadNeRF 可以实时地渲染高清图像级别的人脸头部,且支持直接编辑调整渲染结果的多种语义属性,如身份、表情以及颜色外观等。得益于 NeRF 结构的引入,HeadNeRF 也支持直接编辑调整渲染对象的渲染视角,同时不同视角的渲染结果具有优秀的渲染一致性。相关编辑效果如下所示:

HeadNeRF: 高帧率版

HeadNeRF: 高质量版

方法介绍

HeadNeRF 的 Motivation 在于,NeRF 本身可看作一种三维表示,尽管 NeRF 没有显式地重建目标场景的几何信息,但其本身通过预测场景的辐射场其实隐式地编码了目标场景的几何结构。进而使得,针对渲染任务,NeRF 一定程度上可以等价甚至优于传统的纹理材质网格。且由于 NeRF 是完全基于神经网络的,因此 NeRF 的渲染过程是天然可微的,而其他传统的几何表示,如三维网格,点云,体素等则往往需要各种近似策略来缓解相关表示的渲染不可微问题,与之对应的参数化表示工作往往则需要收集并处理大量的三维扫描数据。相对的,HeadNeRF 的构建过程只需要二维人脸图片。

HeadNeRF 的表示可概述如下:


这里P表示相机参数,z_{*}分别表示身份、表情、反照率和光照相关的语义向量。R表示HeadNeRF的渲染成像过程,I则为HeadNeRF根据上述输入参数渲染生成的人脸头部图片。HeadNeRF的算法流程图如下所示:

HeadNeRF-Pipeline

HeadNeRF 的表示过程整体上通过 conditional-NeRF 实现。训练方面,该研究则通过收集了三个大规模人脸头部图片数据集,并基于这些数据设计有效的 Loss 函数来使得 HeadNeRF 可以语义解耦地编辑渲染结果的各种语义属性。此外,该研究也将 NeRF 体渲染与 2D 神经渲染相结合,以加速 NeRF 渲染速度。

具体而言,代替直接渲染高分辨的人脸头部图片,HeadNeRF先是基于 NeRF 的体渲染管线生成低分辨率、高通道数的特征图(Feature Map),接着使用特殊设计的 2D 神经渲染网络层,逐步对上述特征图进行神经上采样,进而输出最终的预测结果。该 2D 神经渲染模块的引入大幅度提升了原始 NeRF 体渲染的渲染速度,且同时很好地保持了 NeRF 隐式编码的几何结构。如下图所示,针对给定的语义参数组合,连续地编辑调整 HeadNeRF 的渲染视角、相机距离以及相机视野(FoV),其相应地生成结果保持了优秀的渲染一致性,这进一步验证了 HeadNeRF 中 2D 神经渲染模块的有效性。

编辑渲染视角

编辑相机距离和 FoV
此外,2D 神经渲染模块的引入也有效改善了 NeRF 的渲染效率,从而让 HeadNeRF 可以在一般的显卡设备上单次前馈计算获得目标渲染图片的所有像素预测结果。因此,HeadNeRF在 NeRF 的 Photometric Loss 的基础上,额外地使用 Perceptual Loss来监督模型训练。如下图所示,Perceptual Loss 这种全局Instance类型的监督Loss有效提升了 HeadNeRF 渲染结果的渲染细节。

关于 Perceptual Loss 的消融实验

在训练 HeadNeRF 的过程中,该研究也借助 In-the-wild 的单视角数据集 (FFHQ) 来进一步增强 HeadNeRF 的表示能力和泛化能力。得益于所设计的训练策略,HeadNeRF 可以同时使用来自不同渠道、不同类型的人脸数据来训练参数化模型。其中,多人多表情 (多光照) 多视角的人脸头部数据使得 HeadNeRF 可以学习人脸头部的几何形状先验、视角一致先验以及语义解耦先验。另一方面,In-the-wild 的单视角数据则让 HeadNeRF 在训练过程中感知更多的身份、表情以及渲染风格类别,从而有效增强其表示、泛化能力。如下图所示,单视角数据集的引入有效提升了 HeadNeRF 的拟合能力,多人多表情多视角 (多光照) 数据集提供的相关先验则使 HeadNeRF 可以进一步解耦地编辑调整拟合结果的各个语义属性和渲染视角。

FFHQ 单视角数据的引入有效增强了 HeadNeRF 的泛化拟合能力

以下展示了 HeadNeRF 关于更多人脸头部图片的拟合结果,这些图片均来自 In-the-wild 的采集环境,且完全没有参与 HeadNeRF 模型的训练构建。可以发现 HeadNeRF 对于图中展示的多类型数据均可进行有效拟合。这一定程度也验证了 HeadNeRF 的表达能力和泛化能力。


得益于 HeadNeRF 高质量的渲染精度、优秀的解耦能力以及实时的渲染速度, 研究者可以基于 HeadNeRF 设计多种相关应用。如通过训练所获得的 HeadNeRF 模型,可提取输入视频的 HeadNeRF 表情参数序列以及目标图像的 HeadNeRF 表示参数,并进一步的将目标图像的表情参数替换为视频的表情参数,从而实现用视频中的表情来驱动目标图像。相关结果如下所示

网络异常,图片无法展示
|
基于 HeadNeRF 的表情迁移应用

更多结果和介绍,请参考 HeadNeRF 的项目主页与文章 。

该研究相信,基于 NeRF 的数字人技术还将进一步演化,在不远的将来,关于《黑客帝国: 觉醒》演示中的灵魂发问将变成现实。

参考链接 :https://github.com/CrisHY1995/HeadNeRFonDigitalHuman

相关文章
|
9月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
361 6
开源单图生成3D模型TripoSR的局限性分析
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
239 0
|
26天前
|
机器学习/深度学习 人工智能 算法
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架,支持快速训练与推理,能够根据任务特定奖励函数生成高质量图像。
47 12
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
|
2月前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
208 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
3月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
62 7
|
9月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
9月前
|
编解码 人工智能
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
【5月更文挑战第23天】研究人员提出Lumina-T2X框架,统一生成和编辑图像、视频、音频及3D内容。使用Flow-based Large Diffusion Transformer (Flag-DiT)模型,实现多模态生成,支持内容编辑。尽管面临训练资源需求高、生成质量不及人类创作等问题,该框架在娱乐、广告等领域有广泛应用潜力。[论文链接](https://arxiv.org/pdf/2405.05945)
133 1
|
XML 人工智能 JSON
告别手动标注时代 | SAM 助力 Label-Studio 形成 SOTA 级半自动标注工具
告别手动标注时代 | SAM 助力 Label-Studio 形成 SOTA 级半自动标注工具
2285 0
告别手动标注时代 | SAM 助力 Label-Studio 形成 SOTA 级半自动标注工具
|
计算机视觉
ELITE项目原作解读:基于扩散模型的快速定制化图像生成
ELITE项目原作解读:基于扩散模型的快速定制化图像生成
156 0
|
机器学习/深度学习 编解码 人工智能
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
249 0

热门文章

最新文章