短视频的流行催生了基于视频的人脸编辑需求。尽管基于图像的人脸编辑方法已经比较成熟,但直接将基于图像的编辑方法应用于人脸视频通常会产生不稳定、不连续的结果。
浙江大学计算机辅助设计与图形学国家重点实验室在人脸胖瘦参数化研究领域有着较为丰富的经验,他们曾建立了一个关于人脸软组织厚度的回归方程,自然合理地对三维人脸进行胖瘦编辑,然后将编辑后的结果重映射回二维图像。因为只改变脸部脂肪部分而不会引起骨骼形变,该方法能够避免出现不符合自然规律的人脸变化。
今年,该研究小组进一步提出了一个鲁棒且易于实现的基于视频序列的人脸胖瘦参数化方法。即使在侧脸、长发、戴眼镜及轻微遮挡等极端情况下,该方法依旧能够取得连续稳定的结果。
下图 1 展示了这项技术的实际效果:
图 1 每一行表示一个视频的不同帧,而每一列表示该帧不同胖瘦参数的结果
该成果的学术论文《Parametric Reshaping of Portraits in Videos》已被多媒体领域顶级国际学术会议 ACM Multimedia 2021 接收,作为 Oral 论文发表。视频结果可见论文主页:
论文地址:http://www.cad.zju.edu.cn/home/jin/ACMMM2021/ACMMM2021.htm
相关工作
该研究建立在基于图像的人脸胖瘦编辑方法之上。基于图像的方法分为四个步骤:
- 首先,基于输入人脸图像进行三维人脸重建;
- 第二步,结合人脸软组织厚度的线性回归方程编辑并形变三维人脸;
- 第三步,将变形后的三维人脸重投影回二维图像上;
- 最后,对图像人脸外的部分进行形变以适应新生成的人脸投影。
该方法能在图像领域取得不错的结果,但难以直接应用于视频。首先,在重建步骤的最开始,人脸特征点检测不够精确导致帧与帧之间特征点会发生抖动或者偏移,引起三维人脸不连续变化。其次,对于一个较长的视频,由于人脸在图像中的角度和位置的改变,很难保证第一帧重建得到的人脸模型形状和最后一帧重建得到的人脸模型形状是一致的,比如一个人虽然正脸偏圆,但只看侧脸却难以准确评估其胖瘦程度。除了重建阶段的困难,在图像变形期间的困难也会影响结果的稳定性。三维人脸变形前后的每个顶点都存在确定的映射关系,但在二维图像上这一关系却难以保证——胖瘦形变很可能会使得部分人脸边界区域从遮挡物(包括鼻子,脸颊)后浮现或者隐藏,导致简单通过变形前后三维人脸投影点建立的对应二维图像映射关系出现多种错误。而这种映射关系的错误会导致结果的不连续性。最后,即便我们同时保证了重建结果的一致性和人脸变形前后二维映射的连续性,由于人脸在视频中的位置和所占图像面积不一样,图像形变之后背景的扭曲也将变得不一致,从而导致生成视频后产生抖动或者明显伪像。
本文研究思想
该研究逐一解决基于图像的胖瘦编辑方法应用于视频时遇到的稳定性和连续性问题。该研究按照流程将问题分成两个阶段:稳定一致的人脸重建,以及连续的图像形变。在重建阶段,分为三个步骤:
- 首先,逐帧估计人脸姿态,这一步骤将只使用自然表情下的平均人脸进行估计,以减少参数量来节省计算消耗;
- 其次,获取每一帧的大致姿态后,从所有视频帧中选取最能代表人脸形状的连续多帧,并对选中的帧进行联合优化,从而获得准确的三维人脸形状;
- 最后,将准确的人脸形状作为输入,以第一个步骤获得的人脸姿态作为初值,逐帧优化得到每一帧的人脸表情参数。
在图像方法的优化基础上,该研究采用光流能量项平衡特征点检测抖动问题,采用边界能量项解决远离相机一侧特征点检测偏移问题,采用时序能量项保证帧间稳定性。该研究确保了整段视频只存在唯一一组人脸形状参数,同时建立起稳定连续的三维人脸序列。在三维人脸编辑时,该研究先将三维人脸模型中的表情参数分离,胖瘦编辑之后再将表情参数恢复到编辑后的三维人脸上。
在图像形变阶段,该研究提出了一个基于有向距离场的方案,通过建立变形前后人脸边界区域像素的密集映射获得连续的视频结果。该密集映射的建立首先借助变形前后三维模型存在映射关系这一特征,将形变前的二维人脸边界点逆投影至三维人脸模型上,与变形后三维人脸模型对应顶点的投影建立初始映射。然后,建立有向距离场,调整该初始映射,使得每个映射都准确对应着变形前后的人脸边界。最后,结合三维人脸结构,去除因为遮挡关系变化导致的映射突变情况,保证密集映射在帧与帧之间的连续性。获得的密集映射关系最终将作为控制点用于形变原图像以符合变形后的人脸模型投影,并使用优化方程降低背景区域的扭曲。最终结果显示该方法能够在大形变、佩戴眼镜、长发遮挡及其他存在短暂遮挡的情况下获得视觉稳定无伪像的结果。
下图为该研究的 Pipeline,具体细节参见论文:
结果展示
所展示结果均来自原论文主页提供的视频。下图展示了同一个视频不同胖瘦尺度的结果,其中为负数表示变瘦,为正数表示变胖,数值的绝对值表示变胖变瘦的程度:
下图展示了人物站在复杂背景前面的结果,中间小图为视频原始帧,左右分别为变胖以及变瘦之后的该图,在视频中需要仔细观察靠近人脸附近的砖块,可以看到细微扭曲:
下图展示了非正脸场景下的变形情况:
下图展示了被轻微遮挡的结果,左图为原图,右图为变形后的相同帧:
下图展示被头发遮挡部分脸颊并出现头部姿态大幅度移动的情况,左图为原图,右图为变形后的相同帧:
作者简介
论文第一作者唐祥峻,浙江大学 CAD&CG 国家重点实验室攻读博士。研究方向为虚拟人、虚拟现实、特效模拟。个人主页:http://yuyujunjun.github.io/
论文作者孙文欣,浙江大学 CAD&CG 国家重点实验室硕士。研究方向为人脸编辑。
论文作者杨永亮,英国巴斯大学副教授。2009 年于清华大学计算机科学与技术系获得博士学位,2009-2011 年为阿卜杜拉国王科技大学 (KAUST) 博士后研究员, 2011 年 9 月至 2014 年 8 月在 KAUST 视觉计算中心担任助理研究员。发表 Siggraph、Siggraph Asia 论文 9 篇。主要研究方向为数字几何处理、虚拟现实和人工智能。个人主页:http://www.yongliangyang.net/