MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:MEMO能够根据音频和参考图像生成具有身份一致性和表现力的说话视频。
  2. 技术:框架包括记忆引导的时间模块和情感感知音频模块,确保视频生成的质量和一致性。
  3. 应用:适用于虚拟助手、娱乐、教育、新闻和广告等多个领域。

正文(附运行示例)

MEMO 是什么

公众号: 蚝油菜花 - memo

MEMO(Memory-Guided EMOtionaware diffusion)是由Skywork AI、南洋理工大学和新加坡国立大学共同推出的音频驱动肖像动画框架。该框架旨在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。记忆引导模块通过存储更长期的运动信息来增强身份一致性和运动平滑性,而情感感知模块则通过多模态注意力机制提升音频与视频的交互,根据音频中的情感来细化面部表情。

MEMO在多种图像和音频类型的说话视频中,展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。

MEMO 的主要功能

  • 音频驱动的肖像动画:根据输入的音频和参考图像生成同步的、具有身份一致性的说话视频。
  • 多样化内容生成:支持多种图像风格(如肖像、雕塑、数字艺术)和音频类型(如演讲、唱歌、说唱)的说话视频生成。
  • 多语言支持:能处理包括英语、普通话、西班牙语、日语、韩语和粤语在内的多种语言的音频输入。
  • 表情丰富的视频生成:根据音频的情感内容生成具有相应表情的说话视频。
  • 长视频生成能力:能生成长时间、少误差累积的说话视频。

MEMO 的技术原理

  • 记忆引导的时间模块
    • 记忆状态:开发记忆状态存储来自更长过去上下文的信息,指导时间建模。
    • 线性注意力:基于线性注意力机制使用长期运动信息,提高面部运动的连贯性,减少误差累积。
  • 情感感知音频模块
    • 多模态注意力:同时处理视频和音频输入,增强两者之间的交互。
    • 音频情感检测:动态检测音频中的情感线索,将情感信息整合到视频生成过程中,细化面部表情。
  • 端到端框架
    • 参考网络(Reference Net):提供身份信息,用于空间和时间建模。
    • 扩散网络(Diffusion Net):核心创新所在,包含记忆引导的时间模块和情感感知音频模块。
    • 数据处理流程:包括场景转换检测、人脸检测、图像质量评估、音频-唇形同步检测等步骤,确保数据质量。
    • 训练策略:分为两个阶段:面部领域适应和情感解耦的鲁棒训练,使用修正流量损失进行训练。

如何运行 MEMO

安装

conda create -n memo python=3.10 -y
conda activate memo
conda install -c conda-forge ffmpeg -y
pip install -e .

推理

python inference.py --config configs/inference.yaml --input_image <IMAGE_PATH> --input_audio <AUDIO_PATH> --output_dir <SAVE_PATH>

例如:

python inference.py --config configs/inference.yaml --input_image assets/examples/dicaprio.jpg --input_audio assets/examples/speech.wav --output_dir outputs

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
人工智能 小程序
【一步步开发AI运动小程序】五、帧图像人体识别
随着AI技术的发展,阿里体育等公司推出的AI运动APP,如“乐动力”和“天天跳绳”,使云上运动会、线上健身等概念广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。文章分为四部分:初始化人体识别功能、调用人体识别功能、人体识别结果处理以及识别结果旋转矫正。下篇将继续介绍人体骨骼图绘制。
|
2月前
合成生物学:设计合成微生物组
【10月更文挑战第5天】合成生物学作为一门新兴的生物科学分支,正在为生物科学研究和技术应用带来革命性的变化。通过设计和合成微生物组,我们可以创造出具有特定功能的生物系统,为多个领域提供新的解决方案和可能性。随着技术的不断进步和应用领域的拓展,合成生物学必将在未来发挥更加重要的作用。
71 22
|
4月前
|
网络安全 语音技术
语音情感基座模型emotion5vec 问题之什么是歌曲情感识别,在歌曲情感识别任务中,emotion2vec的如何表现
语音情感基座模型emotion5vec 问题之什么是歌曲情感识别?在歌曲情感识别任务中,emotion2vec的如何表现
|
6月前
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
302 5
基于颜色分割方法跟踪人员的面部和手部
使用基于颜色的分割方法跟踪人员的面部和手部。
80 0
|
机器学习/深度学习 编解码 算法
【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读
图像上色是老照片修复的一个关键步骤,本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor
2768 10
【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读
|
7月前
|
算法
音频作曲算法大全
音频作曲算法大全
60 0
|
机器学习/深度学习 存储 算法
【使用深度学习的城市声音分类】使用从提取音频特征(频谱图)中提取的深度学习进行声音分类研究(Matlab代码实现)
【使用深度学习的城市声音分类】使用从提取音频特征(频谱图)中提取的深度学习进行声音分类研究(Matlab代码实现)
292 0
|
人工智能
StyleGAN 调整面部表情,让虚拟人脸更生动
赋予 AI 人脸表情,让其更生动自然
383 3
StyleGAN 调整面部表情,让虚拟人脸更生动
|
机器学习/深度学习
识别手绘数字图像
识别手绘数字图像
89 0

热门文章

最新文章