FlashVideo:生成1080p视频仅需102秒,字节联合港大推出低成本高分辨率视频生成框架

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架,通过两阶段方法显著降低计算成本,快速生成高质量视频。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 FlashVideo 这个由字节跳动和香港大学联合推出的高分辨率视频生成框架。

🚀 快速阅读

FlashVideo 是一个高效的高分辨率视频生成框架,解决了传统单阶段扩散模型在高分辨率视频生成中的计算成本问题。

  1. 核心功能:通过两阶段方法实现高效生成高分辨率视频。
  2. 技术原理:采用参数高效微调(PEFT)技术和流匹配技术,分阶段生成低分辨率和高分辨率视频。

FlashVideo 是什么

FlashVideo 是由字节跳动和香港大学联合推出的一个高效的高分辨率视频生成框架。该框架通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成本问题。

具体来说,FlashVideo 在第一阶段使用 50 亿参数的大型模型在低分辨率(270p)下生成与文本提示高度一致的内容和运动,基于参数高效微调(PEFT)技术确保计算效率。第二阶段通过流匹配技术,将低分辨率视频映射到高分辨率(1080p),仅需 4 次函数评估即可生成细节丰富的高质量视频。

FlashVideo 的主要功能

  • 高效生成高分辨率视频:FlashVideo 通过两阶段框架实现高分辨率视频的快速生成。第一阶段在低分辨率下生成与文本提示高度一致的视频内容,第二阶段则通过流匹配技术将低分辨率视频增强为高分辨率,同时保持细节和运动的一致性。
  • 快速预览与调整:用户可以在全分辨率生成之前预览低分辨率的初步结果,允许用户快速评估生成效果,并在必要时调整输入提示,从而显著减少计算成本和等待时间,提升用户体验。
  • 细节增强与伪影校正:第二阶段专注于细节的精细化处理,能够有效增强小物体的结构和纹理细节,同时校正第一阶段可能产生的伪影,显著提升视频的视觉质量。
  • 高效的计算策略:FlashVideo 在保持高质量输出的同时,通过策略性分配模型容量和函数评估次数(NFEs),大幅减少了计算资源的消耗。例如,生成 1080p 视频仅需 102 秒,远低于传统单阶段模型的 2150 秒。

FlashVideo 的技术原理

FlashVideo

  • 两阶段框架设计:FlashVideo 将视频生成过程分为两个阶段:低分辨率阶段(Stage I)和高分辨率阶段(Stage II)。这种设计策略性地分配了模型容量和函数评估次数(NFEs),平衡生成的保真度和质量。
  • 第一阶段(低分辨率阶段)
    • 参数高效微调(PEFT):通过低秩自适应(LoRA)技术对模型进行微调,适应低分辨率生成任务。LoRA 在注意力层、前馈网络(FFN)和自适应层归一化层中应用,显著提高了模型的鲁棒性和效率。
      足够的 NFEs:在低分辨率下保留足够的 NFEs(50 次),确保生成内容的高保真度。
  • 第二阶段(高分辨率阶段)
    • 流匹配技术:通过线性插值在低分辨率和高分辨率潜在表示之间建立映射关系,直接从低质量视频生成高质量视频,避免了从高斯噪声开始的传统扩散过程。
    • 低质量视频模拟:通过像素空间退化(DEGpixel)和潜在退化(DEGlatent)生成低质量视频,训练模型在保持保真度的同时增强细节。
    • 全 3D 注意力机制:确保在显著运动和尺度变化的视频中保持增强视觉细节的一致性。
    • 3D 因果变分自编码器(VAE):将视频像素压缩为潜特征,减少计算复杂度。
    • 3D RoPE(相对位置编码):在高分辨率阶段使用 3D RoPE 替代传统的绝对位置嵌入,提高模型对分辨率的适应性和扩展性。
    • 从粗到细的训练策略:先在低分辨率上进行大规模预训练,再逐步扩展到高分辨率,最后通过少量高质量样本进行微调,以提高模型性能。

如何运行 FlashVideo

1. 环境设置

此代码库已通过 PyTorch 2.4.0+cu121 和 Python 3.11.11 测试。您可以使用以下命令安装必要的依赖项:

pip install -r requirements.txt

2. 准备检查点

要获取 3D VAE(与 CogVideoX 相同),以及 Stage-I 和 Stage-II 的权重,请按以下步骤操作:

cd FlashVideo
mkdir -p ./checkpoints
huggingface-cli download --local-dir ./checkpoints  FoundationVision/FlashVideo

检查点应按以下方式组织:

├── 3d-vae.pt
├── stage1.pt
└── stage2.pt

3. 文本到视频生成

Stage-I 和 Stage-II 均仅使用长提示进行训练。为了获得最佳结果,请在提示中包含详细描述。

Jupyter Notebook

您可以通过 Jupyter Notebook 方便地提供用户提示。建议使用具有 80G 容量的单个 GPU。或者,您可能需要调整 VAE 解码器的空间和时间切片。

sat/demo.ipynb
从包含提示的文本文件生成视频

您可以通过在文本文件中提供用户提示并使用多个 GPU 生成视频。

bash inf_270_1080p.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
7天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
2577 111
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
2天前
|
云安全 边缘计算 人工智能
对话|ESA如何助力企业高效安全开展在线业务?
ESA如何助力企业安全开展在线业务
1014 7
|
4天前
|
人工智能 自然语言处理 JavaScript
宜搭上新,DeepSeek 插件来了!
钉钉宜搭近日上线了DeepSeek插件,无需编写复杂代码,普通用户也能轻松调用强大的AI大模型能力。安装后,平台新增「AI生成」组件,支持创意内容生成、JS代码编译、工作汇报等场景,大幅提升工作效率。快来体验这一高效智能的办公方式吧!
1301 5
|
14天前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
9349 86
|
2天前
|
人工智能 自然语言处理 API
DeepSeek全尺寸模型上线阿里云百炼!
阿里云百炼平台近日上线了DeepSeek-V3、DeepSeek-R1及其蒸馏版本等六款全尺寸AI模型,参数量达671B,提供高达100万免费tokens。这些模型在数学、代码、自然语言推理等任务上表现出色,支持灵活调用和经济高效的解决方案,助力开发者和企业加速创新与数字化转型。示例代码展示了如何通过API使用DeepSeek-R1模型进行推理,用户可轻松获取思考过程和最终答案。
|
6天前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
1243 7
阿里云PAI部署DeepSeek及调用
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171375 18
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150313 32
|
5天前
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。

热门文章

最新文章