视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒(1)

简介: 视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒


编辑:杜伟

在生成式 AI 盛行的今天,英伟达在文本生成视频领域更进了一步,实现了更高分辨率、更长时间。


要说现阶段谁是 AI 领域的「当红辣子鸡」?生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内,生成式 AI 展示的效果深深地抓住了人们的眼球。


我们以图像生成模型为例,得益于底层建模技术最近的突破,它们收获了前所未有的关注。如今,最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型(diffusion model, DM)之上。其中扩散模型的优势在于能够提供稳健和可扩展的训练目标,并且参数密集度通常低于基于 transformer 的竞品模型


虽然图像领域取得了长足进步,但视频建模却落后了,这主要归咎于视频数据训练的高昂计算成本以及缺乏大规模公开可用的通用数据集。目前视频合成虽有丰富的研究文献,但包括先前视频 DM 在内的大多数工作仅能生成分辨率较低且往往较短的视频。


因此,如何生成分辨率更高、更长的视频成为一个热门研究课题。近日慕尼黑大学、英伟达等机构的研究者利用潜在扩散模型(latent diffusion model, LDM)实现了高分辨率的长视频合成。相关论文已经发表在 arXiv 上。




在论文中,研究者将视频模型应用于真实世界问题并生成了高分辨率的长视频。他们关注两个相关的视频生成问题,一是高分辨率真实世界驾驶数据的视频合成,其在自动驾驶环境中作为模拟引擎具有巨大潜力;二是文本指导视频生成,用于创意内容生成。


为此,研究者提出了视频潜在扩散模型(Video LDM),并将 LDM 扩展到了计算密集型任务 —— 高分辨率视频生成。与以往视频生成 DM 工作相比,他们仅在图像上预训练 Video LDM(或者使用可用的预训练图像 LDM),从而允许利用大规模图像数据集。


接着将时间维度引入潜在空间 DM、并在编码图像序列(即视频)上仅训练这些时间层的同时固定预训练空间层,从而将 LDM 图像生成器转换为视频生成器(下图左)。最后以类似方式微调 LDM 的解码器以实现像素空间中的时间一致性(下图右)。



此外,为了进一步提高空间分辨率,研究者对像素空间和潜在 DM 上采样器进行时间对齐,将它们转换为时间一致的视频超分辨率模型。在 LDM 的基础上,本文方法以计算和内存高效的方式生成了全局连贯的长视频。对于非常高分辨率的合成,视频上采样器只需要在本地运行,保持了较低的训练和计算要求。


最后,研究者进行了消融实验,在分辨率为 512×1024 的真实驾驶场景视频上对其方法进行了测试,实现了 SOTA 视频质量,并合成了几分钟的视频。此外,他们还微调了 Stable Diffusion,将它变成一个高效、强大的文本到视频生成器,分辨率最高可达 1280 × 2048


通过将经过训练的时间层迁移至不同的微调文本到图像 LDM,研究者首次展示了个性化的文本到视频生成,并希望自己的工作为高效的数字内容创建和自动驾驶模拟开辟新的途径。


我们来看几个文本到视频生成示例,比如「弹电吉他的泰迪熊、高分辨率、4K」。



比如「海浪拍打着一座孤独的灯塔、不详的灯光」。



再比如「夕阳下独自穿行在迷雾森林中的旅行者」。



方法解读:潜在视频扩散模型


这部分中,研究者描述了为实现高分辨率视频合成,对预训练图像 LDM 和 DM 上采样器进行视频微调。



相关文章
xxl-job执行器启动报错读取不到配置文件Could not resolve placeholder ‘xxl.job.executor.address‘ in value “${xxl.job
有几个不用配置的属性,也要写出来,不填值就行 但是最后一个日志天数得写,写个-1。不然空字符串无法转成数字
|
前端开发 Java 测试技术
【开题报告】基于Spring Boot的课程在线预约系统的设计与实现
【开题报告】基于Spring Boot的课程在线预约系统的设计与实现
576 0
|
存储 NoSQL 数据库
知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比(JanusGraph、HugeGraph、Neo4j、Dgraph、NebulaGraph、Tugrapg)
知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比(JanusGraph、HugeGraph、Neo4j、Dgraph、NebulaGraph、Tugrapg)
知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比(JanusGraph、HugeGraph、Neo4j、Dgraph、NebulaGraph、Tugrapg)
|
小程序
微信小程序扫描二维码如何跳转小程序内指定页面并传递参数给目标页面?
微信小程序扫描二维码如何跳转小程序内指定页面并传递参数给目标页面?
微信小程序扫描二维码如何跳转小程序内指定页面并传递参数给目标页面?
|
机器学习/深度学习 分布式计算 监控
大模型开发:你如何使用大数据进行模型训练?
在大数据模型训练中,关键步骤包括数据准备(收集、清洗、特征工程、划分),硬件准备(分布式计算、并行训练),模型选择与配置,训练与优化,监控评估,以及模型的持久化与部署。过程中要关注数据隐私、安全及法规遵循,利用技术进步提升效率和性能。
2836 2
|
Windows
最新永久汉化免费版PS2023Photoshop2023版本ACR15
Photoshop 2023 v24.0.1.547是由Adobe公司最新推出的高效、专业、实用的图像处理软件,同时该软件主要是以其强悍的编辑和调整、绘图等功能得到广泛的应用,其中还有各种图片的调整和图画绘制以及图像的修复、调色等一系列的工具都是数不胜数,使用范围也是非常的广,我们从照片修饰到海报、包装、横幅的制作,再到照片的处理,只要您需要我们就可以做到,丰富的预设让用户的工作可以更加的轻松。
1635 0
|
数据安全/隐私保护
太牛了!下载视频号视频用这工具!免费无水印!
太牛了!下载视频号视频用这工具!免费无水印!
|
Rust IDE Java
我该用什么软件开发 Rust | 常用支持 Rust 的编辑器推荐
我该用什么软件开发 Rust | 常用支持 Rust 的编辑器推荐
5919 0
我该用什么软件开发 Rust | 常用支持 Rust 的编辑器推荐
|
NoSQL 安全 Linux
MAP_DENYWRITE:被Linux内核屏蔽的flag
一 背景谈到MAP_DENYWRITE,可能有些陌生。这个flag很少被用户态开发者关注,其中没有被关注的理由主要是“this flag is ignored by os”,简而言之,操作系统(Linux内核)将会忽略掉用户传入的MAP_DENYWRITE标志。回到MAP_DENYWRITE是什么?与MAP_ANONYMOUS、MAP_SHARED、MAP_PRIVATE等一样,是系统调用mmap
MAP_DENYWRITE:被Linux内核屏蔽的flag

热门文章

最新文章