MEMO：通过音频和图像生成肖像说话视频，感知音频中的情感来细化面部表情

2024-12-09 34

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： MEMO是一种音频驱动的生成肖像说话视频框架，由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块，确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成，并能处理多语言输入。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：MEMO能够根据音频和参考图像生成具有身份一致性和表现力的说话视频。
技术：框架包括记忆引导的时间模块和情感感知音频模块，确保视频生成的质量和一致性。
应用：适用于虚拟助手、娱乐、教育、新闻和广告等多个领域。

正文（附运行示例）

MEMO 是什么

公众号: 蚝油菜花 - memo

MEMO（Memory-Guided EMOtionaware diffusion）是由Skywork AI、南洋理工大学和新加坡国立大学共同推出的音频驱动肖像动画框架。该框架旨在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建：记忆引导的时间模块和情感感知音频模块。记忆引导模块通过存储更长期的运动信息来增强身份一致性和运动平滑性，而情感感知模块则通过多模态注意力机制提升音频与视频的交互，根据音频中的情感来细化面部表情。

MEMO在多种图像和音频类型的说话视频中，展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。

MEMO 的主要功能

音频驱动的肖像动画：根据输入的音频和参考图像生成同步的、具有身份一致性的说话视频。
多样化内容生成：支持多种图像风格（如肖像、雕塑、数字艺术）和音频类型（如演讲、唱歌、说唱）的说话视频生成。
多语言支持：能处理包括英语、普通话、西班牙语、日语、韩语和粤语在内的多种语言的音频输入。
表情丰富的视频生成：根据音频的情感内容生成具有相应表情的说话视频。
长视频生成能力：能生成长时间、少误差累积的说话视频。

MEMO 的技术原理

记忆引导的时间模块：
- 记忆状态：开发记忆状态存储来自更长过去上下文的信息，指导时间建模。
- 线性注意力：基于线性注意力机制使用长期运动信息，提高面部运动的连贯性，减少误差累积。
情感感知音频模块：
- 多模态注意力：同时处理视频和音频输入，增强两者之间的交互。
- 音频情感检测：动态检测音频中的情感线索，将情感信息整合到视频生成过程中，细化面部表情。
端到端框架：
- 参考网络（Reference Net）：提供身份信息，用于空间和时间建模。
- 扩散网络（Diffusion Net）：核心创新所在，包含记忆引导的时间模块和情感感知音频模块。
- 数据处理流程：包括场景转换检测、人脸检测、图像质量评估、音频-唇形同步检测等步骤，确保数据质量。
- 训练策略：分为两个阶段：面部领域适应和情感解耦的鲁棒训练，使用修正流量损失进行训练。

如何运行 MEMO

安装

conda create -n memo python=3.10 -y
conda activate memo
conda install -c conda-forge ffmpeg -y
pip install -e .

推理

python inference.py --config configs/inference.yaml --input_image <IMAGE_PATH> --input_audio <AUDIO_PATH> --output_dir <SAVE_PATH>

例如：

python inference.py --config configs/inference.yaml --input_image assets/examples/dicaprio.jpg --input_audio assets/examples/speech.wav --output_dir outputs

资源

项目官网：https://memoavatar.github.io
GitHub 仓库：https://github.com/memoavatar/memo
HuggingFace 模型库：https://huggingface.co/memoavatar/memo
arXiv 技术论文：https://arxiv.org/pdf/2412.04448

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

MEMO：通过音频和图像生成肖像说话视频，感知音频中的情感来细化面部表情

🚀 快速阅读

正文（附运行示例）

MEMO 是什么

MEMO 的主要功能

MEMO 的技术原理

如何运行 MEMO

安装

推理

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景