给我1张图,生成30秒视频!|DeepMind新作

简介: 给我1张图,生成30秒视频!|DeepMind新作
【新智元导读】近日,DeepMind提出了一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。


AI又进阶了?

而且是一张图生成连贯30秒视频的那种。

emm....这质量是不是有点太糊了

要知道这只是从单个图像(第一帧)生成的,而且没有任何显示的几何信息。

这是DeepMind最近提出的一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

简单讲,就是用Transframer来预测任意帧的概率。

这些帧可以以一个或者多个带标注的上下文帧为条件,既可以是先前的视频帧、时间标记或者摄像机标记的视图场景。

Transframer架构


先来看看这个神奇的Transframer的架构是怎么运作的。


论文地址就贴在下面了,感兴趣的童鞋可以看看~https://arxiv.org/abs/2203.09494

为了估计目标图像上的预测分布,我们需要一个能够生产多样化、高质量输出的表达生成模型。

尽管DC Transformer在单个图像域上的结果可以满足需求,但并非以我们需要的多图像文本集 {(In,an)}n 为条件。

因此,我们对DC Transformer进行了扩展,以启用图像和注释条件预测。

我们替换了DC Transformer 的Vision-Transformer风格的编码器,该编码器使用多帧 U-Net 架构对单个DCT图像进行操作,用于处理一组带注释的帧以及部分隐藏的目标DCT图像。

下面看看Transframer架构是如何工作的。

(a)Transframer将DCT图像(a1和a2)以及部分隐藏的目标DCT图像(aT)和附加注释作为输入,由多帧U-Net编码器处理。 接下来,U-Net输出通过交叉注意力传递给DC-Transformer解码器,该解码器则自动回归生成与目标图像的隐藏部分对应的DCT Token序列(绿色字母)。 (b)多帧U-Net block由NF-Net卷积块、多帧自注意力块组成,它们在输入帧之间交换信息和 Transformer式的残差MLP。


再来看看处理图像输入的Multi-Frame U-Net。

U-Net的输入是由N个DCT帧和部分隐藏目标DCT帧组成的序列,注释信息以与每个输入帧相关联的向量的形式提供。

U-Net的核心组件是一个计算块,它首先将一个共享的NF-ResNet 卷积块应用于每个输入帧,然后应用一个Transformer样式的自我注意块来聚合跨帧的信息。(图2 b)

NF-ResNet块由分组卷积和挤压和激发层组成,旨在提高TPU的性能。

下面,图(a)比较了RoboNet (128x128) 和KITTI视频的绝对和残差DCT表征的稀疏性。

由于RoboNet由只有少数运动元素的静态视频组成,因此残差帧表征的稀疏性显著增加。

而KITTI视频通常具有移动摄像头,导致连续帧中几乎所有地方都存在差异。

但在这种情况下,稀疏性小带来的好处也随之弱化。

多视觉任务强者


通过一系列数据集和任务的测试,结果显示Transframer可以应用在多个广泛任务上。


其中就包括视频建模、新视图合成、语义分割、对象识别、深度估计、光流预测等等。

视频建模

通过Transframer在给定一系列输入视频帧的情况下预测下一帧。

研究人员分别在KITTI和RoboNet两个数据集上,训练了Transframer在视频生成上的性能如何。

对于KITTI,给定5个上下文帧和25采样帧,结果显示,Transframer模型在所有指标上的性能都有所提高,其中LPIPS和FVD的改进是最显而易见的。

在RoboNet上,研究人员给定2个上下文帧和10个采样帧,分别以64x64 和 128x128 的分辨率进行训练,最终也取得了非常好的结果。

视图合成

在视图合成方面,研究者通过提供相机视图作为表 1(第 3 行)中描述的上下文和目标注释,以及 统一采样多个上下文视图,直到指定的最大值。

通过提供1-2个上下文视图,在ShapeNet 基准上评估模型Transframer,明显优于PixelNeRF和SRN。

此外在数据集Objectron进行评估后,可以看出当给定单个输入视图时,模型会产生连贯的输出,但会遗漏一些特征,比如交叉的椅子腿。

当给出1个上下文视图,以128×128分辨率合成的视图如下:

当再给出2个上下文视图,以128×128分辨率合成的视图如下:

多视觉任务

不同的计算机视觉任务通常使用复杂的架构和损失函数来处理。

这里,研究人员在8个不同的任务和数据集上使用相同的损失函数联合训练了Transframer模型。

这8个任务分别是:单个图像的光流预测、对象分类、检测和分割、语义分割(在2个数据集上)、未来帧预测和深度估计。

结果显示,Transframer学会在完全不同的任务中生成不同的样本,在某些任务中,比如 Cityscapes,该模型产生了质量上好的输出。

但是,在未来帧预测和边界框检测等任务上的模型输出质量参差不齐,这表明在此设置中建模更具挑战性。


参考资料:https://sites.google.com/view/transframer

相关文章
|
JavaScript 前端开发 Python
传智播客预习视频(16倍速无人值守自动下一节)
传智播客预习视频(16倍速无人值守自动下一节)
1325 0
传智播客预习视频(16倍速无人值守自动下一节)
|
关系型数据库 MySQL 索引
【MySQL】当前读、快照读、MVCC
【MySQL】当前读、快照读、MVCC当前读:  select...lock in share mode (共享读锁)  select...for update  update , delete , insert   当前读, 读取的是最新版本, 并且对读取的记录加锁, 阻塞其他事务同时改动相同记录,避免出现安全问题。
12973 0
|
10月前
|
JSON 文字识别 测试技术
Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!
今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。
3086 22
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习之格式转换笔记(一):模型文件pt转onnx转tensorrt格式实操成功
关于如何将深度学习模型从PyTorch的.pt格式转换为ONNX格式,然后再转换为TensorRT格式的实操指南。
2426 0
深度学习之格式转换笔记(一):模型文件pt转onnx转tensorrt格式实操成功
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能如何赋能教育发展?探索未来教育的新篇章
本文探讨人工智能(AI)对教育领域的深远影响,涵盖教学方式变革、教育资源均衡、教师角色重塑及学生能力培养等方面。生成式AI技术助力个性化教学,减轻教师负担,促进城乡教育公平。同时,AI教育强调伦理与法律知识,提升学生综合素养和职场竞争力。GAI认证等培训框架为学习者提供实用技能,助力其在数字时代脱颖而出。人工智能正推动教育迈向优质均衡发展,为未来人才培养铺就希望之路。
|
10月前
|
自然语言处理 开发者
GDC2025 | 探索最前沿的开源大模型技术与创新,2025全球开发者先锋大会,上海见!
2025全球开发者先锋大会将于2月21-23日在徐汇盛大召开!大会以“模塑全球 无限可能”为主题,定位“社区的社区”,旨在促进基模、垂模、语料、算力、基金、开发者、软件服务等产业生态深度对接。
382 0
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
394 0
|
机器学习/深度学习 计算机视觉
【YOLOv10改进-注意力机制】CoordAttention: 用于移动端的高效坐标注意力机制
YOLOv10专栏探讨了将位置信息融入通道注意力的创新方法,提出“坐标注意力”机制,改善移动网络性能。该机制通过两个1D特征编码捕捉空间依赖并保持位置细节,生成增强对象表示的注意力图。简单易整合到现有网络如MobileNet,几乎无额外计算成本,且在ImageNet及目标检测等任务中表现优越。实现代码展示了CoordAtt模块的工作流程。更多详情和配置见链接。
|
安全 网络安全 网络架构
IP地址的主要功能
IP地址是网络设备的唯一标识,用于数据包路由、网络通信、互操作性、安全管理和全球信息共享。它们确保数据准确传输,支持路由决策,允许设备安全互动,并打破地域限制。IP地址在不断发展的网络世界中扮演着核心角色。
|
机器学习/深度学习 算法 Serverless
YoLo_V4模型训练过程
YoLo_V4模型训练过程
408 0