MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情

简介: MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:MEMO能够根据音频和参考图像生成具有身份一致性和表现力的说话视频。
  2. 技术:框架包括记忆引导的时间模块和情感感知音频模块,确保视频生成的质量和一致性。
  3. 应用:适用于虚拟助手、娱乐、教育、新闻和广告等多个领域。

正文(附运行示例)

MEMO 是什么

公众号: 蚝油菜花 - memo

MEMO(Memory-Guided EMOtionaware diffusion)是由Skywork AI、南洋理工大学和新加坡国立大学共同推出的音频驱动肖像动画框架。该框架旨在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。记忆引导模块通过存储更长期的运动信息来增强身份一致性和运动平滑性,而情感感知模块则通过多模态注意力机制提升音频与视频的交互,根据音频中的情感来细化面部表情。

MEMO在多种图像和音频类型的说话视频中,展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。

MEMO 的主要功能

  • 音频驱动的肖像动画:根据输入的音频和参考图像生成同步的、具有身份一致性的说话视频。
  • 多样化内容生成:支持多种图像风格(如肖像、雕塑、数字艺术)和音频类型(如演讲、唱歌、说唱)的说话视频生成。
  • 多语言支持:能处理包括英语、普通话、西班牙语、日语、韩语和粤语在内的多种语言的音频输入。
  • 表情丰富的视频生成:根据音频的情感内容生成具有相应表情的说话视频。
  • 长视频生成能力:能生成长时间、少误差累积的说话视频。

MEMO 的技术原理

  • 记忆引导的时间模块
    • 记忆状态:开发记忆状态存储来自更长过去上下文的信息,指导时间建模。
    • 线性注意力:基于线性注意力机制使用长期运动信息,提高面部运动的连贯性,减少误差累积。
  • 情感感知音频模块
    • 多模态注意力:同时处理视频和音频输入,增强两者之间的交互。
    • 音频情感检测:动态检测音频中的情感线索,将情感信息整合到视频生成过程中,细化面部表情。
  • 端到端框架
    • 参考网络(Reference Net):提供身份信息,用于空间和时间建模。
    • 扩散网络(Diffusion Net):核心创新所在,包含记忆引导的时间模块和情感感知音频模块。
    • 数据处理流程:包括场景转换检测、人脸检测、图像质量评估、音频-唇形同步检测等步骤,确保数据质量。
    • 训练策略:分为两个阶段:面部领域适应和情感解耦的鲁棒训练,使用修正流量损失进行训练。

如何运行 MEMO

安装

conda create -n memo python=3.10 -y
conda activate memo
conda install -c conda-forge ffmpeg -y
pip install -e .

推理

python inference.py --config configs/inference.yaml --input_image <IMAGE_PATH> --input_audio <AUDIO_PATH> --output_dir <SAVE_PATH>

例如:

python inference.py --config configs/inference.yaml --input_image assets/examples/dicaprio.jpg --input_audio assets/examples/speech.wav --output_dir outputs

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 人工智能 开发工具
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。
2161 9
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT
简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。
344 1
|
9月前
|
关系型数据库 MySQL 网络安全
如何在宝塔mysql修改掉3306端口
在宝塔面板管理MySQL时,默认使用3306端口。为提升安全或避免冲突,可修改端口。步骤如下:1. 登录宝塔面板;2. 进入数据库管理;3. 找到并编辑my.cnf配置文件,修改`port`值;4. 保存并重启MySQL服务;5. 开放防火墙新端口;6. 测试连接。具体命令和流程图详见正文。
802 1
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。
676 14
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
|
存储 供应链 安全
探索区块链技术的未来——去中心化应用的崛起
探索区块链技术的未来——去中心化应用的崛起
412 13
|
存储 安全 容灾
同步与备份
【7月更文挑战第1天】同步与备份
746 70
网页编辑Office Word文档,开启修订功能,启用留痕、显示留痕并接受留痕
在日常办公环境场景下,有时候会遇到帮助他人修改文档或者为文档提供修改意见,如果我们在文档中直接修改,其他人很不容易看到我们修改了哪个部分,如果一旦你的修改意见不被采纳,原作者还需要恢复原来的文档,这样为别人带来了更多的工作。 如果用猿大师办公助手在网页中编辑Office Word文档,开启修订功能,启用留痕、显示留痕并接受留痕,就可以很好的来解决此问题。
751 92
|
机器学习/深度学习 存储 人工智能
摆脱 AI 生产“小作坊”:如何基于 Kubernetes 构建云原生 AI 平台
本文将介绍和梳理我们对云原生 AI 这个新领域的思考和定位,介绍云原生 AI 套件产品的核心场景、架构和主要能力。
摆脱 AI 生产“小作坊”:如何基于 Kubernetes 构建云原生 AI 平台

热门文章

最新文章