人脸神经辐射场的掩码编辑方法NeRFFaceEditing,不会三维建模也能编辑立体人脸

简介: 人脸神经辐射场的掩码编辑方法NeRFFaceEditing,不会三维建模也能编辑立体人脸

想要个性化设计高真实感的三维立体人脸,却发现自己并不熟悉专业的设计软件?三维人脸编辑方法 NeRFFaceEditing 提供了新的解决方案,即使不会三维建模,也能自由编辑高真实感的立体人脸,建模元宇宙中的个性化数字肖像!


NeRFFaceEditing 由中科院计算所和香港城市大学的研究人员合作完成,相关技术论文在计算机图形学顶级会议 ACM SIGGRAPH Asia 2022 上发表。


项目主页:http://geometrylearning.com/NeRFFaceEditing/


NeRFFaceEditing 将二维的语义掩码作为三维几何编辑的桥梁,用户在一个视角下进行的语义编辑可以传播到整个三维人脸的几何,并保持材质不变。进一步,给定表示参考风格的图像,用户可以轻松的更改整个三维人脸的材质风格,并保持几何不变。


基于该方法的三维人脸编辑系统,即使用户不熟悉专业的三维设计,也可以轻松进行个性化的人脸设计,自定义人脸形状和外观。先来看两个使用 NeRFFaceEditing 的惊艳效果!



Part I 背景


近些年,随着神经辐射场 [1] 与对抗式生成网络 [2] 的结合,各种高质量、快速渲染的三维人脸生成网络被提出,其中包括 EG3D [3]。


图 3 EG3D 的不同视角的生成效果与几何表示


该方法的三平面表示结合了传统的二维生成对抗网络和最新的三维隐式表征,因此继承了 StyleGAN [4] 的强大生成能力和神经辐射场的表征能力。但是,这些生成模型并不能对人脸的几何和材质进行解耦控制,而解耦控制几何和材质是三维角色设计等应用不可或缺的功能。


已有工作,如 DeepFaceDrawing [5]、DeepFaceEditing [6] 可以实现基于线稿的几何和材质的解耦控制及二维人脸图像的生成与编辑。DeepFaceVideoEditing [7] 则将线稿编辑应用到人脸视频,能在时序上生成丰富的编辑效果。


但是,图像的解耦与编辑方法,很难直接应用至三维空间。而现有的三维人脸的几何和材质解耦方法往往需要重新训练网络参数,而且使用的空间表示方法有较大的局限性,缺少三平面表示的良好性质。为了解决上述的问题,NeRFFaceEditing 在三平面表示的三维生成对抗网络的预训练模型参数的基础上,利用任意视角的二维语义掩码作为媒介,实现对三维人脸进行几何编辑和对材质的解耦控制。


Part 2 NeRFFaceEditing 的算法原理


在三平面生成器生成出三平面之后,启发自 AdaIN [8],即对于二维的特征图(Feature Map),它的统计数据可以表示它的风格,NeRFFaceEditing 将三平面分解为表达空间上不变的高层次材质特征的均值和标准差 (a),以及表达空间上变化的几何特征的标准化的三平面。结合标准化的三平面与分解出的材质特征 (a) 可以还原出原本的三平面。因此,如果给定不同的材质特征,即可赋予同一几何不同的材质。


更进一步,为了实现对于几何和材质的解耦控制,NeRFFaceEditing 将原始的单个解码器分解为了几何解码器和材质解码器。几何解码器输入从标准化三平面采样得到的特征,预测密度和语义标签,用于表达三维人脸的几何和语义掩码体(Volume)。而几何特征与材质特征 (a) 通过可控制的材质模块(CAM)模块组合后,再从中采样特征输入材质解码器预测颜色。最后通过体渲染,得到某一视角下的人脸图像与对应的语义掩码。而在给定一个不同的材质特征 (b) 的情况下,几何特征与材质特征 (b) 通过 CAM 模块和体渲染可以得到另一张几何不变而材质改变的人脸图像。整体网络结构如下图所示:


图 4 NeRFFaceEditing 的网络架构


除此之外,为了约束拥有同一材质特征,但几何不同的样本渲染结果在材质上相似,NeRFFaceEditing 利用生成好的语义掩码,使用直方图特征来分别表示这些材质特征相同,几何不同的样本不同脸部组成部分,例如头发、皮肤等,在颜色上的分布。然后优化这些样本在各个组成部分上颜色分布的距离和。如下图所示:


图 5 材质相似约束训练策略


Part 3 效果展示与实验对比


使用 NeRFFaceEditing,可以借助二维的语义掩码对三维人脸空间进行几何编辑:


图 6 三维人脸几何编辑


除此之外,还可以基于参考图片,进行三维一致的三维空间内材质风格迁移:


图 7 三维人脸风格迁移


在此基础上,可以实现解耦的人脸插值变形应用,如下图以左上角和右下角作为起止点,对相机、几何、材质进行线性插值:


图 8 解耦人脸变形效果展示


借助 PTI [9] 将真实图像反投影到 NeRFFaceEditing 的隐空间,也可以实现对于真实图像的编辑和风格迁移。借此,NeRFFaceEditing 也与其他可以控制视角的对人脸进行编辑的开源方法,即 SofGAN [10] 进行了比较,证明了方法的优越性。


图 9 真实图像三维几何编辑的例子。可以看到 NeRFFaceEditing 的真实性优于 SofGAN,而且 SofGAN 在其他视角上对于身份有一定的改变。


图 10 真实图像风格迁移的例子。可以看到 SofGAN 有一定的瑕疵,而且在身份上有一定变化。


Part 4 结语与致谢


数字内容生成在工业制作和数字媒体领域有着广泛的应用,尤其是虚拟数字人的生成与编辑,在近期受到了广泛的关注,而三维人脸几何与材质的解耦编辑就是在个性化塑造真实的虚拟形象上一种可能的解决手段。


NeRFFaceEditing 系统,通过对三维人脸生成网络进行解耦设计,可以将用户在二维视角上对于语义掩码的修改,转变为对于整个三维空间的几何修改,并且保证材质不改变。除此之外,借助对于风格迁移效果强化的训练策略,可以实现有效的三维空间内材质风格迁移。NeRFFaceEditing 的论文已经被计算机图形学顶级会议 ACM SIGGRAPH ASIA 2022 录用。


该项目研究团队包括中科院计算所菁英班本科生同学蒋楷文(第一作者),高林副研究员(本文通讯作者)、陈姝宇博士和香港城市大学傅红波教授等,有关论文的更多细节,请浏览项目主页:

http://geometrylearning.com/NeRFFaceEditing/


引用

1. Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In European conference on computer vision (pp. 405-421). Springer, Cham.

2. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Advances in neural information processing systems, 27.

3. Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, and Jonathan Tremblay. Efficient geometry-aware 3D generative adversarial networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 16123-16133. 2022.

4. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 8110-8119. 2020.

5. Shu-Yu Chen, Wanchao Su, Lin Gao, Shihong Xia, and Hongbo Fu. DeepFaceDrawing: Deep generation of face images from sketches. ACM Transactions on Graphics, Vol. 39, No. 4, 2020, 72:1-72:16.

6. Shu-Yu Chen, Feng-Lin Liu, Yu-Kun Lai, Paul L. Rosin, Chunpeng Li, Hongbo Fu, and Lin Gao. DeepFaceEditing: Deep Face Generation and Editing with Disentangled Geometry and Appearance Control. ACM Transactions on Graphics, Vol. 40, No. 4, 2021, 90:1–90:15.

7. Feng-Lin Liu, Shu-Yu Chen, Yukun Lai, Chunpeng Li, Yue-Ren Jiang, Hongbo Fu, and Lin Gao. DeepFaceVideoEditing: Sketch-based deep editing of face videos. ACM Transactions on Graphics, Vol. 41, No. 4, 2022, 167:1-167:16.

8. Xun Huang, and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE international conference on computer vision, pp. 1501-1510. 2017.

9. Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or. Pivotal tuning for latent-based editing of real images. ACM Transactions on Graphics, Vol. 42, No. 1, 2023, 6:1–6:13.

10. Anpei Chen, Ruiyang Liu, Ling Xie, Zhang Chen, Hao Su, and Jingyi Yu. Sofgan: A portrait image generator with dynamic styling. ACM Transactions on Graphics, Vol. 41, No. 1, 2022, 1:1-1:26.


相关文章
|
机器学习/深度学习 编解码 人工智能
Reading Notes: Human-Computer Interaction System: A Survey of Talking-Head Generation
由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。 对于有关于Talking-Head Generation的方法,这是一篇比较好的综述,我想着整理一下里面比较重要的部分,大概了解近几年对虚拟人工作的一些发展和
|
6月前
|
编解码 Linux 内存技术
LosslessCut倍速 LosslessCut github免费中文版,免费视频剪辑有哪些
LosslessCut 是一款免费开源的无损音视频剪切工具,支持 Win、Mac 和 Linux 平台。它无需重新编码即可快速裁剪音视频并保持高质量。软件支持多种格式,包括 MP4、MOV、FLAC 等,具备无损剪切、轨道编辑、元数据修改等功能,还提供中文界面切换及丰富快捷键操作,适合高效处理多媒体文件。
886 0
|
NoSQL Linux
Linux系统调试中出现核心转储(core dump)的问题
Linux系统调试中出现核心转储(core dump)的问题
3216 0
|
安全 程序员 网络安全
网络安全那些梗
网络安全领域的梗往往以幽默、讽刺或夸张的方式反映了该领域的某些现象、挑战或误解。以下是一些网络安全相关的梗
520 4
|
机器学习/深度学习 存储 测试技术
2024年 最火的Python学习路线
2024年 最火的Python学习路线
360 0
|
机器学习/深度学习 数据采集 编解码
PIE Engine机器学习遥感影像监督分类全流程(附源码)
本文中,作者基于PIE Engine遥感云计算平台进行遥感影像监督分类,详细介绍了遥感影像分类的数据预处理、模型训练及结果可视化。
2835 2
|
安全 NoSQL Linux
《ARM汇编与逆向工程 蓝狐卷 基础知识》
《ARM汇编与逆向工程 蓝狐卷 基础知识》
345 0
|
编解码 定位技术 Python
Google Earth Engine谷歌地球引擎GEE批量下载ImageCollection遥感影像数据合集的方法
Google Earth Engine谷歌地球引擎GEE批量下载ImageCollection遥感影像数据合集的方法
932 2
|
达摩院 vr&ar 计算机视觉
达摩院CVPR2023人脸重建论文HRN解读——REALY榜单冠军模型
前言高保真 3D 人脸重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。 本文中,我们将介绍来自达摩院的CVPR2023最新的人脸重建论文,该工作在单图人脸重建榜单REALY上取得正脸、侧脸双榜第一,并在其他多个数据集中取得了SO
5248 0