ACM MM 2021 | 人脸可胖可瘦,浙大提出稳定连续的视频人脸参数化编辑

简介: 来自浙江大学计算机辅助设计与图形学国家重点实验室的研究者,提出了一个鲁棒且易于实现的基于视频序列的人脸胖瘦参数化方法。即使在侧脸、长发、戴眼镜及轻微遮挡等极端情况下,该方法依旧能够取得连续稳定的结果。

短视频的流行催生了基于视频的人脸编辑需求。尽管基于图像的人脸编辑方法已经比较成熟,但直接将基于图像的编辑方法应用于人脸视频通常会产生不稳定、不连续的结果。
浙江大学计算机辅助设计与图形学国家重点实验室在人脸胖瘦参数化研究领域有着较为丰富的经验,他们曾建立了一个关于人脸软组织厚度的回归方程,自然合理地对三维人脸进行胖瘦编辑,然后将编辑后的结果重映射回二维图像。因为只改变脸部脂肪部分而不会引起骨骼形变,该方法能够避免出现不符合自然规律的人脸变化。
今年,该研究小组进一步提出了一个鲁棒且易于实现的基于视频序列的人脸胖瘦参数化方法。即使在侧脸、长发、戴眼镜及轻微遮挡等极端情况下,该方法依旧能够取得连续稳定的结果。

下图 1 展示了这项技术的实际效果:

微信图片_20211206143200.jpg

图 1 每一行表示一个视频的不同帧,而每一列表示该帧不同胖瘦参数的结果
该成果的学术论文《Parametric Reshaping of Portraits in Videos》已被多媒体领域顶级国际学术会议 ACM Multimedia 2021 接收,作为 Oral 论文发表。视频结果可见论文主页:

微信图片_20211206143204.jpg


论文地址:http://www.cad.zju.edu.cn/home/jin/ACMMM2021/ACMMM2021.htm

微信图片_20211206143238.png点此查看原视频

相关工作


该研究建立在基于图像的人脸胖瘦编辑方法之上。基于图像的方法分为四个步骤:

  • 首先,基于输入人脸图像进行三维人脸重建;
  • 第二步,结合人脸软组织厚度的线性回归方程编辑并形变三维人脸;
  • 第三步,将变形后的三维人脸重投影回二维图像上;
  • 最后,对图像人脸外的部分进行形变以适应新生成的人脸投影。


该方法能在图像领域取得不错的结果,但难以直接应用于视频。首先,在重建步骤的最开始,人脸特征点检测不够精确导致帧与帧之间特征点会发生抖动或者偏移,引起三维人脸不连续变化。其次,对于一个较长的视频,由于人脸在图像中的角度和位置的改变,很难保证第一帧重建得到的人脸模型形状和最后一帧重建得到的人脸模型形状是一致的,比如一个人虽然正脸偏圆,但只看侧脸却难以准确评估其胖瘦程度。除了重建阶段的困难,在图像变形期间的困难也会影响结果的稳定性。三维人脸变形前后的每个顶点都存在确定的映射关系,但在二维图像上这一关系却难以保证——胖瘦形变很可能会使得部分人脸边界区域从遮挡物(包括鼻子,脸颊)后浮现或者隐藏,导致简单通过变形前后三维人脸投影点建立的对应二维图像映射关系出现多种错误。而这种映射关系的错误会导致结果的不连续性。最后,即便我们同时保证了重建结果的一致性和人脸变形前后二维映射的连续性,由于人脸在视频中的位置和所占图像面积不一样,图像形变之后背景的扭曲也将变得不一致,从而导致生成视频后产生抖动或者明显伪像。


本文研究思想


该研究逐一解决基于图像的胖瘦编辑方法应用于视频时遇到的稳定性和连续性问题。该研究按照流程将问题分成两个阶段:稳定一致的人脸重建,以及连续的图像形变。在重建阶段,分为三个步骤:

  • 首先,逐帧估计人脸姿态,这一步骤将只使用自然表情下的平均人脸进行估计,以减少参数量来节省计算消耗;
  • 其次,获取每一帧的大致姿态后,从所有视频帧中选取最能代表人脸形状的连续多帧,并对选中的帧进行联合优化,从而获得准确的三维人脸形状;
  • 最后,将准确的人脸形状作为输入,以第一个步骤获得的人脸姿态作为初值,逐帧优化得到每一帧的人脸表情参数。


在图像方法的优化基础上,该研究采用光流能量项平衡特征点检测抖动问题,采用边界能量项解决远离相机一侧特征点检测偏移问题,采用时序能量项保证帧间稳定性。该研究确保了整段视频只存在唯一一组人脸形状参数,同时建立起稳定连续的三维人脸序列。在三维人脸编辑时,该研究先将三维人脸模型中的表情参数分离,胖瘦编辑之后再将表情参数恢复到编辑后的三维人脸上。
在图像形变阶段,该研究提出了一个基于有向距离场的方案,通过建立变形前后人脸边界区域像素的密集映射获得连续的视频结果。该密集映射的建立首先借助变形前后三维模型存在映射关系这一特征,将形变前的二维人脸边界点逆投影至三维人脸模型上,与变形后三维人脸模型对应顶点的投影建立初始映射。然后,建立有向距离场,调整该初始映射,使得每个映射都准确对应着变形前后的人脸边界。最后,结合三维人脸结构,去除因为遮挡关系变化导致的映射突变情况,保证密集映射在帧与帧之间的连续性。获得的密集映射关系最终将作为控制点用于形变原图像以符合变形后的人脸模型投影,并使用优化方程降低背景区域的扭曲。最终结果显示该方法能够在大形变、佩戴眼镜、长发遮挡及其他存在短暂遮挡的情况下获得视觉稳定无伪像的结果。
下图为该研究的 Pipeline,具体细节参见论文:

微信图片_20211206143250.jpg


结果展示


所展示结果均来自原论文主页提供的视频。下图展示了同一个视频不同胖瘦尺度的结果,其中为负数表示变瘦,为正数表示变胖,数值的绝对值表示变胖变瘦的程度:

微信图片_20211206143253.jpg


下图展示了人物站在复杂背景前面的结果,中间小图为视频原始帧,左右分别为变胖以及变瘦之后的该图,在视频中需要仔细观察靠近人脸附近的砖块,可以看到细微扭曲:微信图片_20211206143256.jpg


下图展示了非正脸场景下的变形情况:

微信图片_20211206143300.jpg


下图展示了被轻微遮挡的结果,左图为原图,右图为变形后的相同帧: 

微信图片_20211206143303.jpg

下图展示被头发遮挡部分脸颊并出现头部姿态大幅度移动的情况,左图为原图,右图为变形后的相同帧:

微信图片_20211206143306.jpg


作者简介


论文第一作者唐祥峻,浙江大学 CAD&CG 国家重点实验室攻读博士。研究方向为虚拟人、虚拟现实、特效模拟。个人主页:http://yuyujunjun.github.io/


论文作者孙文欣,浙江大学 CAD&CG 国家重点实验室硕士。研究方向为人脸编辑。


论文作者杨永亮,英国巴斯大学副教授。2009 年于清华大学计算机科学与技术系获得博士学位,2009-2011 年为阿卜杜拉国王科技大学 (KAUST) 博士后研究员, 2011 年 9 月至 2014 年 8 月在 KAUST 视觉计算中心担任助理研究员。发表 Siggraph、Siggraph Asia 论文 9 篇。主要研究方向为数字几何处理、虚拟现实和人工智能。个人主页:http://www.yongliangyang.net/

相关文章
|
6月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
98 2
|
6月前
|
计算机视觉
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
45 0
|
5月前
|
算法 图形学 计算机视觉
CVPR 2024:合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
【6月更文挑战第12天】CVPR 2024上的M3Act数据集解决了复杂人群行为标注难题,提供多视角、多群体的合成视频数据,助力计算机视觉研究。利用Unity引擎生成高度真实的人类动作和群体活动,促进以人类为中心任务的学习。实验显示,M3Act能提升目标检测等任务性能,降低数据收集成本,并支持3D群体活动的可控生成。尽管面临数据复杂性、偏差和计算资源限制等问题,M3Act为相关研究提供了宝贵资源。[论文链接](https://arxiv.org/abs/2306.16772)
70 4
|
1月前
|
人工智能 安全
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 4 章:控制温度和 Top-p 采样
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 4 章:控制温度和 Top-p 采样
|
3月前
|
人工智能 安全 机器人
LLM对齐数据全自动合成!UW华人博士生提出Magpie方法,Macbook Air即可运行
【8月更文挑战第11天】在AI领域,大型语言模型(LLM)的行为对齐一直是个挑战。华盛顿大学研究人员提出名为Magpie的新方法,能自动高效生成高质量指令数据,减少人工干预,提升LLM的对齐效果。通过输入模板,Magpie利用已对齐LLM生成能力自动生成指令数据,仅需少量GPU资源即可创建大规模数据集。实验显示,使用Magpie数据集微调的模型性能媲美传统监督方法。尽管如此,Magpie仍需进一步优化以生成特定领域指令并确保数据安全性。[论文](https://arxiv.org/abs/2406.08464)
160 60
|
6月前
|
机器学习/深度学习 编解码 计算机视觉
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
|
机器学习/深度学习 编解码 计算机视觉
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
|
机器人 芯片
Science子刊封面 | 免组装集成,新研究借助生物分子马达自动构造微型机器人
Science子刊封面 | 免组装集成,新研究借助生物分子马达自动构造微型机器人
下一篇
无影云桌面