ExVideo+CogVideoX,更长、更优!再次升级的开源视频生成能力

简介: DiffSynth-Studio 再次为 CogVideoX 带来新的增强模块——ExVideo-CogVideoX-LoRA-129f-v1

上个月,DiffSynth-Studio 支持了 CogVideoX 模型,并提供了一系列配置拉满的生成能力,今天,DiffSynth-Studio 再次为 CogVideoX 带来新的增强模块——ExVideo-CogVideoX-LoRA-129f-v1,这个模块沿用了 ExVideo 的设计思路,通过后训练(post-training)来扩展模型的能力,让模型能够生成更长的视频。

01

样例展示

我们来看几个样例!先是跟随无人机从皑皑雪山的上空掠过,俯瞰雪域盛景。

再是来到万籁俱寂的极地,欣赏如梦似幻的极光与斗转星移的夜空。

image.png

然后穿越到遥远的火星,穿上宇航服,坐在马背上,踏入科幻电影的想象世界!

累了,就回家陪陪家人吧~

image.png

想必大家已经领略到了这个模型的魅力,这个模型能够生成 16 秒的长视频

image.png

16 秒有多长呢?我们用最后一个例子说明。我们生成两个人握手的画面,是的,连续握手 16 秒!视频中左侧的角色在视频结尾已经握手握到不想握了,露出了生无可恋的有趣表情。

02

模型介绍

这个模型是基于两个模型构建的——CogVideoX-5B 和 ExVideo-SVD,CogVideoX-5B 是由智谱团队开源的文生视频模型,我们在往期文章中对这个模型做过详细介绍。这个模型是目前开源模型中很强大的视频生成模型,感兴趣的同学可以在魔搭社区下载和体验这个模型。

CogVideoX-5B 生成的视频

模型链接:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

模型Demo体验:

https://www.modelscope.cn/studios/ZhipuAI/CogVideoX-5b-demo

而 ExVideo 则是由魔搭社区的 DiffSynth-Studio 团队提出的视频生成模型“后训练”(post-training)方法,ExVideo 通过在视频生成模型的基础上添加额外的扩展模块并继续进行训练,大幅度增加模型能够生成的视频长度。此前,DiffSynth-Studio 团队开源了模型 ExVideo-SVD,在模型 Stable Video Diffusion 上验证了训练方案的可行性。

image.png

ExVideo-SVD 生成的视频

模型链接:

  • ExVideo-SVD

https://modelscope.cn/models/ECNU-CILab/ExVideo-SVD-128f-v1

  • stable-video-diffusion-img2vid-xt

https://modelscope.cn/models/ai-modelscope/stable-video-diffusion-img2vid-xt


而今天的新模型,则是这两个模型的结合,利用 ExVideo 扩展训练的思路,增强 CogVideoX-5B 模型的生成能力。由于 CogVideoX-5B 是基于 DiT 的模型结构,与 Stable Video Diffusion 模型不同,没有卷积部分,取而代之的是大量全连接层,所以 LoRA 很适合作为扩展模块的架构,这次的模型正是以 LoRA 的形式发布。

LoRA 模型结构

在 CogVideoX-5B 上实现扩展训练的难点在于,加长的视频数据大幅度增加了显存的需求。原本的模型支持生成 49 帧(由于模型结构限制,第一帧单独编码,因此帧数为 4 的倍数 +1)视频,把视频加长到 129 帧后,即使是 80G 显存的显卡也无法训练。DiffSynth-Studio 团队为此做了很多工程优化,包括:

  • Parameter freezing:冻结除了扩展模块以外的所有参数
  • Mixed precision:扩展模块部分以全精度维护,其他部分以 BFloat16 精度维护
  • Gradient checkpointing:在前向传播时丢弃中间变量,并反向传播时重新计算
  • Flash attention:在所有注意力机制上启用加速过的注意力实现
  • Shard optimizer states and gradients:基于 DeepSpeed 把部分参数分拆到多个 GPU 上
  • Text Encoder & VAE offload:将 Text Encoder 和 VAE 的相关计算拆分运行,训练进程仅加载 DiT


训练数据集包括 InternVid 和 Panda70M 中的数千个视频,该模型在 8*A100 上训练了数天,最终得到了大家目前看到的版本。对比一下不加 ExVideo 扩展模块的模型,原模型在生成长视频时出现了明显的细节缺失,ExVideo 扩展模块非常显著地提升了画面的细节。

不使用 ExVideo 扩展模块

image.png

使用 ExVideo 扩展模块

03

模型体验

下载并安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

运行样例脚本(模型会自动下载):

from diffsynth import ModelManager, CogVideoPipeline, save_video, download_models
import torch
download_models(["CogVideoX-5B", "ExVideo-CogVideoX-LoRA-129f-v1"])
model_manager = ModelManager(torch_dtype=torch.bfloat16)
model_manager.load_models([
    "models/CogVideo/CogVideoX-5b/text_encoder",
    "models/CogVideo/CogVideoX-5b/transformer",
    "models/CogVideo/CogVideoX-5b/vae/diffusion_pytorch_model.safetensors",
])
model_manager.load_lora("models/lora/ExVideo-CogVideoX-LoRA-129f-v1.safetensors")
pipe = CogVideoPipeline.from_model_manager(model_manager)
torch.manual_seed(6)
video = pipe(
    prompt="an astronaut riding a horse on Mars.",
    height=480, width=720, num_frames=129,
    cfg_scale=7.0, num_inference_steps=100,
)
save_video(video, "video_with_lora.mp4", fps=8, quality=5)

DiffSynth-Studio开源项目:

https://github.com/modelscope/DiffSynth-Studio


(点击链接👇直达,欢迎star)

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b?from=alizishequ__text

相关文章
|
存储 Java 关系型数据库
家政服务管理平台
家政服务管理平台
pip镜像源大全及配置
在中国使用pip时,可以配置国内镜像源来提高安装速度和稳定性。以下是一些常见的国内镜像源:
19455 0
|
存储 JSON 缓存
十行代码让日志存储降低80%
日志是系统中熵增最快的一个模块,它承载了业务野蛮生长过程中的所有副产品。本文介绍了一个日志治理案例,围绕降本和提效两大主题,取得一定成效,分享给所有渴望造物乐趣的同学。
54224 23
十行代码让日志存储降低80%
|
自然语言处理 Python
Python:ULID通用唯一词典排序标识符
Python:ULID通用唯一词典排序标识符
458 0
|
11月前
|
人工智能 知识图谱
SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务
SVFR 是一个通用视频人脸修复框架,支持人脸修复、着色和修复任务,基于 Stable Video Diffusion 技术,提供高质量的视频修复效果。
713 23
SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务
|
人工智能 异构计算 Python
解锁视频生成新时代! 探索智谱CogVideoX-2b:轻松生成6秒视频的详细指南
解锁视频生成新时代! 探索智谱CogVideoX-2b:轻松生成6秒视频的详细指南
593 1
解锁视频生成新时代! 探索智谱CogVideoX-2b:轻松生成6秒视频的详细指南
|
机器学习/深度学习 人工智能 计算机视觉
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
376 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
|
边缘计算 人工智能 搜索推荐
移动应用与系统:技术演进与未来展望
【10月更文挑战第39天】在数字时代的浪潮中,移动应用和操作系统作为连接用户与数字世界的桥梁,其技术的演进不仅改变了我们的生活方式,还不断推动着社会的数字化转型。本文将探讨移动应用开发的最新趋势、移动操作系统的技术革新,以及这些变化如何塑造我们的未来。通过深入浅出的分析,我们将一窥移动技术的未来蓝图,并思考如何在不断变化的技术环境中保持竞争力。
154 0
|
机器学习/深度学习 人工智能 监控
一文读懂deepSpeed:深度学习训练的并行化
DeepSpeed 是由微软开发的开源深度学习优化库,旨在提高大规模模型训练的效率和可扩展性。通过创新的并行化策略、内存优化技术(如 ZeRO)及混合精度训练,DeepSpeed 显著提升了训练速度并降低了资源需求。它支持多种并行方法,包括数据并行、模型并行和流水线并行,同时与 PyTorch 等主流框架无缝集成,提供了易用的 API 和丰富的文档支持。DeepSpeed 不仅大幅减少了内存占用,还通过自动混合精度训练提高了计算效率,降低了能耗。其开源特性促进了 AI 行业的整体进步,使得更多研究者和开发者能够利用先进优化技术,推动了 AI 在各个领域的广泛应用。
|
人工智能
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
清华大学研究团队提出SageAttention,一种高效的8比特量化Attention方法,旨在解决Transformer模型中Attention机制计算复杂度高的问题。SageAttention通过合理的量化策略,实现了计算效率的显著提升,同时保持了高精度。实验结果显示,SageAttention在多种任务中表现优异,为Transformer模型的推理加速提供了新的解决方案。
487 2