❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:MEMO能够根据音频和参考图像生成具有身份一致性和表现力的说话视频。
- 技术:框架包括记忆引导的时间模块和情感感知音频模块,确保视频生成的质量和一致性。
- 应用:适用于虚拟助手、娱乐、教育、新闻和广告等多个领域。
正文(附运行示例)
MEMO 是什么
MEMO(Memory-Guided EMOtionaware diffusion)是由Skywork AI、南洋理工大学和新加坡国立大学共同推出的音频驱动肖像动画框架。该框架旨在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。记忆引导模块通过存储更长期的运动信息来增强身份一致性和运动平滑性,而情感感知模块则通过多模态注意力机制提升音频与视频的交互,根据音频中的情感来细化面部表情。
MEMO在多种图像和音频类型的说话视频中,展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。
MEMO 的主要功能
- 音频驱动的肖像动画:根据输入的音频和参考图像生成同步的、具有身份一致性的说话视频。
- 多样化内容生成:支持多种图像风格(如肖像、雕塑、数字艺术)和音频类型(如演讲、唱歌、说唱)的说话视频生成。
- 多语言支持:能处理包括英语、普通话、西班牙语、日语、韩语和粤语在内的多种语言的音频输入。
- 表情丰富的视频生成:根据音频的情感内容生成具有相应表情的说话视频。
- 长视频生成能力:能生成长时间、少误差累积的说话视频。
MEMO 的技术原理
- 记忆引导的时间模块:
- 记忆状态:开发记忆状态存储来自更长过去上下文的信息,指导时间建模。
- 线性注意力:基于线性注意力机制使用长期运动信息,提高面部运动的连贯性,减少误差累积。
- 情感感知音频模块:
- 多模态注意力:同时处理视频和音频输入,增强两者之间的交互。
- 音频情感检测:动态检测音频中的情感线索,将情感信息整合到视频生成过程中,细化面部表情。
- 端到端框架:
- 参考网络(Reference Net):提供身份信息,用于空间和时间建模。
- 扩散网络(Diffusion Net):核心创新所在,包含记忆引导的时间模块和情感感知音频模块。
- 数据处理流程:包括场景转换检测、人脸检测、图像质量评估、音频-唇形同步检测等步骤,确保数据质量。
- 训练策略:分为两个阶段:面部领域适应和情感解耦的鲁棒训练,使用修正流量损失进行训练。
如何运行 MEMO
安装
conda create -n memo python=3.10 -y
conda activate memo
conda install -c conda-forge ffmpeg -y
pip install -e .
推理
python inference.py --config configs/inference.yaml --input_image <IMAGE_PATH> --input_audio <AUDIO_PATH> --output_dir <SAVE_PATH>
例如:
python inference.py --config configs/inference.yaml --input_image assets/examples/dicaprio.jpg --input_audio assets/examples/speech.wav --output_dir outputs
资源
- 项目官网:https://memoavatar.github.io
- GitHub 仓库:https://github.com/memoavatar/memo
- HuggingFace 模型库:https://huggingface.co/memoavatar/memo
- arXiv 技术论文:https://arxiv.org/pdf/2412.04448
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦