在计算机视觉和机器学习领域,数字人技术一直备受关注。其中,音频驱动的视觉配音(Audio-driven Visual Dubbing)是一个具有广泛应用前景的方向,例如在数字人口腔广播、视频翻译和视频内容修改等方面。然而,在合成准确的口型同步时,如何保持和突出说话者的个性(如说话风格和面部细节)仍然是一个挑战。
为了解决这个问题,字节跳动的研究人员提出了一种名为PersonaTalk的创新方法。该方法是一个基于注意力的两阶段框架,包括几何构造和面部渲染两个阶段。在几何构造阶段,PersonaTalk使用一种风格感知的音频编码模块,通过一个交叉注意力层将说话风格注入到音频特征中。然后,这些风格化的音频特征用于驱动说话者的模板几何,以获得口型同步的几何。在面部渲染阶段,PersonaTalk使用一个双注意力面部渲染器,它由两个并行的交叉注意力层组成,分别称为Lip-Attention和Face-Attention。这些注意力层从不同的参考帧中采样纹理,以渲染整个面部。
PersonaTalk方法具有以下几个优势和创新点:
- 高保真度和个性化:通过将说话风格注入到音频特征中,并使用双注意力面部渲染器来保留面部细节,PersonaTalk能够生成高保真度和个性化的口型同步视频。
- 无需特定人物训练:作为通用框架,PersonaTalk不需要针对特定人物进行训练或微调,因此可以应用于任何说话者。
- 竞争性性能:尽管是通用框架,但PersonaTalk的性能可以与特定人物的方法相媲美。
- 广泛的实验和用户研究:研究人员进行了广泛的实验和用户研究,以证明PersonaTalk的优势,包括在视觉质量、口型同步准确性和个性保持方面的优势。
为了评估PersonaTalk的性能,研究人员将其与几种最先进的方法进行了比较,包括Wav2Lip、VideoRetalking、DINet和IP_LAP。这些方法在口型同步和个性保持方面存在一些局限性,例如视觉质量差、口型同步不准确或个性不突出。相比之下,PersonaTalk在所有这些方面都表现出更好的性能。
研究人员通过定量和定性实验以及用户研究来评估PersonaTalk的性能。在定量实验中,PersonaTalk在视觉质量、口型同步准确性和个性保持方面都表现出更好的性能。在定性实验中,研究人员展示了PersonaTalk生成的视频与原始视频的比较,证明了其在保留说话者个性和面部细节方面的优势。在用户研究中,研究人员进行了一项Mean Opinion Score(MOS)评估,其中人类评估者对PersonaTalk和其他方法生成的视频进行了评分。结果显示,PersonaTalk在所有三个方面(个性保持、口型同步准确性和视觉质量)都表现出更好的性能。
PersonaTalk是一种创新的音频驱动视觉配音方法,通过将说话风格注入到音频特征中,并使用双注意力面部渲染器来保留面部细节,能够生成高保真度和个性化的口型同步视频。该方法无需特定人物训练,并具有竞争性性能。广泛的实验和用户研究证明了其在视觉质量、口型同步准确性和个性保持方面的优势。
尽管PersonaTalk取得了显著的成果,但仍有一些局限性需要解决。例如,由于训练数据的多样性有限,PersonaTalk在驱动非人类角色(如卡通人物)时可能表现出较低的有效性。此外,在面部生成过程中,如果面部姿态较大,可能会出现伪影。
在未来,研究人员可以探索如何进一步提高PersonaTalk的性能,例如通过增加训练数据的多样性或改进面部生成算法。此外,研究人员还可以探索如何将PersonaTalk应用于其他领域,例如虚拟现实或游戏开发。