阿里发布轨迹可控的DiT视频生成模型—Tora

简介: 【9月更文挑战第4天】阿里团队在视频生成领域取得了重要突破,推出了名为Tora的新模型。Tora基于Diffusion Transformer框架,旨在克服现有模型在物体运动控制上的局限。该模型整合了文本、视觉和轨迹条件,通过轨迹提取器、时空DiT和运动引导融合器三大组件,实现了高质量且运动一致的视频生成。Tora在多个基准数据集上表现出色,尤其在高运动保真度方面领先。然而,其应用仍需大量计算资源,并主要聚焦于可控轨迹视频生成。论文详情见:https://arxiv.org/abs/2407.21705

近期,阿里团队在视频生成领域取得了一项重要突破,他们发布了一种名为Tora的新型视频生成模型。Tora是一种基于Diffusion Transformer(DiT)的框架,旨在解决当前视频生成模型在控制视频中物体运动方面的局限性。

视频生成是计算机视觉和机器学习领域的一项重要任务,其目标是根据给定的条件或要求生成高质量的视频内容。近年来,基于深度学习的视频生成模型取得了显著的进展,尤其是基于Transformer的扩散模型(DiT),它们在生成高质量视频方面表现出了出色的能力。

然而,尽管这些模型在生成视频的视觉质量方面取得了成功,但它们在控制视频中物体的运动方面仍然存在一些挑战。具体而言,现有的视频生成模型通常难以生成具有精确和一致的运动模式的视频,这限制了它们在需要对视频内容进行精细控制的应用中的适用性。

为了解决这些挑战,阿里团队提出了Tora,这是一种基于DiT的新型视频生成框架,专注于生成具有可控轨迹的视频。Tora的独特之处在于它能够同时整合文本、视觉和轨迹条件,以生成高质量的视频内容。

Tora由三个关键组件组成:轨迹提取器(TE)、时空DiT和运动引导融合器(MGF)。轨迹提取器负责将任意轨迹编码为层次化的时空运动块,使用3D视频压缩网络实现。运动引导融合器则将这些运动块整合到DiT块中,以生成遵循指定轨迹的一致视频。

通过这种设计,Tora能够与DiT的可扩展性无缝结合,从而实现对视频内容动态的精确控制,包括不同的持续时间、纵横比和分辨率。这使得Tora成为一种非常灵活和强大的视频生成工具,适用于各种不同的应用场景。

为了验证Tora的有效性,阿里团队进行了广泛的实验,并将结果与现有的视频生成模型进行了比较。实验结果表明,Tora在生成具有高运动保真度的视频方面表现出色,能够精确地模拟物理世界的运动。

具体而言,Tora在多个视频生成基准数据集上取得了最先进的性能,包括在控制视频中物体运动方面的显著改进。此外,Tora还展示了生成具有复杂运动模式和多个运动物体的视频的能力,这是现有模型难以实现的。

然而,尽管Tora在视频生成方面取得了显著的进展,但它仍然存在一些局限性。例如,Tora可能需要大量的计算资源和训练数据来达到最佳性能,这可能限制了它在资源受限环境中的应用。此外,Tora目前主要关注于生成具有可控轨迹的视频,对于其他类型的视频生成任务(如无条件视频生成)可能需要进一步的研究和改进。

论文地址:https://arxiv.org/abs/2407.21705

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA
本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
214 0
|
22天前
|
编解码 人工智能 并行计算
阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
本文介绍了阿里妈妈技术团队基于FLUX开发的Controlnet修复模型和蒸馏加速模型,填补了社区空白并提升了FLUX的实用性和效率。
|
5月前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
53 5
|
5月前
|
自然语言处理 安全 数据安全/隐私保护
不影响输出质量还能追踪溯源,大模型无偏水印入选ICLR 2024 Spotlight
【6月更文挑战第7天】研究人员提出了一种无偏水印技术,能在不降低大型语言模型(LLMs)输出质量的情况下实现追踪和归属。此方法被ICLR 2024选为Spotlight论文,保证水印不影响模型性能,保护知识产权,防止滥用。无偏水印的挑战包括设计无损模型质量的实现、有效检测及安全防范措施。[论文链接: https://openreview.net/pdf?id=uWVC5FVidc]
61 2
|
6月前
|
机器学习/深度学习 人工智能 算法
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
【5月更文挑战第27天】在线迭代RLHF方案使用开源数据复现LLaMA3指令学习效果,提供了一种动态收集和更新模型的新方法,提升大型语言模型的性能。通过代理偏好模型模拟人类反馈,降低训练成本,促进技术民主化。虽然面临数据利用、探索与利用平衡等挑战,且需解决长尾分布数据处理问题,该方案已在多基准测试中展现优秀性能,为LLM训练提供高效途径。论文链接:https://arxiv.org/pdf/2405.07863
60 1
|
6月前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
146 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
机器学习/深度学习 算法 机器人
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
120 0
|
机器学习/深度学习 人工智能 缓存
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(1)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
156 0