旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

简介: 【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)

最近,人工智能领域的一项重大突破引起了广泛关注。旷视科技(Megvii Technology)的研究人员开发了一种名为MegActor的新型AI模型,该模型能够根据输入的照片生成栩栩如生的人像视频,并模仿任意表情包。这一成果有望在动画制作、虚拟偶像等领域带来革命性的变化。

MegActor的核心技术是基于条件扩散模型(Conditional Diffusion Model)的一种创新应用。与传统的基于关键点或表情捕捉的方法不同,MegActor直接利用原始视频作为驱动源,从而能够捕捉到更丰富的面部表情细节。然而,这种直接使用原始视频的方法也带来了一些挑战,如身份泄露和无关背景的干扰。

为了解决这些问题,研究人员提出了一种综合的解决方案。首先,他们开发了一个合成数据生成框架,用于创建具有一致运动和表情但不同身份的视频数据集。这有助于减少身份泄露的风险,并使模型能够更好地泛化到不同的个体。

其次,研究人员采用了一种新颖的背景处理方法。他们使用图像分割技术将参考图像的前景和背景分离,然后使用CLIP(Contrastive Language-Image Pre-training)模型对背景进行编码。这样,模型就可以在保持背景稳定性的同时,专注于生成准确的人像动画。

此外,研究人员还利用风格迁移技术来消除驱动视频中面部细节的影响。通过将参考图像的外观风格迁移到驱动视频中,模型可以更好地专注于面部表情的变化,而不受其他细节的干扰。

经过这些创新的设计和优化,MegActor在仅使用公开数据集进行训练的情况下,取得了可与商业模型相媲美的结果。这表明该模型具有出色的泛化能力和实际应用潜力。

然而,尽管MegActor在技术上取得了重大突破,但在实际应用中仍存在一些潜在的问题和挑战。首先,由于模型直接使用原始视频作为驱动源,因此对于视频的质量和清晰度有一定的要求。如果输入的视频质量较差或存在其他问题,可能会影响到生成结果的准确性和真实性。

其次,尽管研究人员采取了一些措施来减少身份泄露的风险,但仍然无法完全消除这种可能性。在实际应用中,特别是在一些敏感领域(如个人隐私保护)中,这可能是一个重要的考虑因素。

此外,MegActor的训练和生成过程可能需要大量的计算资源和时间,这可能会限制其在一些资源受限场景下的应用。

论文:https://arxiv.org/abs/2405.20851

目录
相关文章
|
9天前
|
存储 人工智能 运维
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
|
4天前
|
机器学习/深度学习 人工智能 算法
【AI问爱答-双十一返场周】第二场企业办公视频
【AI问爱答-双十一返场周】探讨AI大模型时代对企业办公的影响。AI员工旨在辅助而非替代人类,通过深度学习、大规模训练数据和自我监督学习提升效率。视频介绍生成式智能工具如全妙系列,助力企业内容生产。关注AI问爱答,了解更多AI技术与应用。
|
12天前
|
机器学习/深度学习 人工智能 测试技术
PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话
PsycoLLM 是合肥工业大学推出的中文心理大语言模型,基于高质量心理数据集训练,支持心理健康评估、多轮对话和情绪识别,为心理健康领域提供技术支持。
152 51
PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话
|
4天前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
68 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
96 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
6天前
|
人工智能 资源调度 JavaScript
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
PPTAgent 是中科院推出的自动生成演示文稿框架,基于两阶段编辑方法,支持智能分析、大纲生成、幻灯片生成与评估,适用于教育、企业培训等多种场景。
157 18
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
|
10天前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
71 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
10天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
49 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
39 11
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
|
10天前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
64 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位

热门文章

最新文章