文档备案控制台

开发者社区新智元文章正文

给我1张图，生成30秒视频！｜DeepMind新作

2023-05-10 233

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 给我1张图，生成30秒视频！｜DeepMind新作

【新智元导读】近日，DeepMind提出了一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

AI又进阶了？

而且是一张图生成连贯30秒视频的那种。

emm....这质量是不是有点太糊了

要知道这只是从单个图像（第一帧）生成的，而且没有任何显示的几何信息。

这是DeepMind最近提出的一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

简单讲，就是用Transframer来预测任意帧的概率。

这些帧可以以一个或者多个带标注的上下文帧为条件，既可以是先前的视频帧、时间标记或者摄像机标记的视图场景。

Transframer架构

先来看看这个神奇的Transframer的架构是怎么运作的。

论文地址就贴在下面了，感兴趣的童鞋可以看看~https://arxiv.org/abs/2203.09494

为了估计目标图像上的预测分布，我们需要一个能够生产多样化、高质量输出的表达生成模型。

尽管DC Transformer在单个图像域上的结果可以满足需求，但并非以我们需要的多图像文本集 {(In,an)}n 为条件。

因此，我们对DC Transformer进行了扩展，以启用图像和注释条件预测。

我们替换了DC Transformer 的Vision-Transformer风格的编码器，该编码器使用多帧 U-Net 架构对单个DCT图像进行操作，用于处理一组带注释的帧以及部分隐藏的目标DCT图像。

下面看看Transframer架构是如何工作的。

（a）Transframer将DCT图像（a1和a2）以及部分隐藏的目标DCT图像（aT）和附加注释作为输入，由多帧U-Net编码器处理。接下来，U-Net输出通过交叉注意力传递给DC-Transformer解码器，该解码器则自动回归生成与目标图像的隐藏部分对应的DCT Token序列（绿色字母）。（b）多帧U-Net block由NF-Net卷积块、多帧自注意力块组成，它们在输入帧之间交换信息和 Transformer式的残差MLP。

再来看看处理图像输入的Multi-Frame U-Net。

U-Net的输入是由N个DCT帧和部分隐藏目标DCT帧组成的序列，注释信息以与每个输入帧相关联的向量的形式提供。

U-Net的核心组件是一个计算块，它首先将一个共享的NF-ResNet 卷积块应用于每个输入帧，然后应用一个Transformer样式的自我注意块来聚合跨帧的信息。（图2 b）

NF-ResNet块由分组卷积和挤压和激发层组成，旨在提高TPU的性能。

下面，图(a)比较了RoboNet (128x128) 和KITTI视频的绝对和残差DCT表征的稀疏性。

由于RoboNet由只有少数运动元素的静态视频组成，因此残差帧表征的稀疏性显著增加。

而KITTI视频通常具有移动摄像头，导致连续帧中几乎所有地方都存在差异。

但在这种情况下，稀疏性小带来的好处也随之弱化。

多视觉任务强者

通过一系列数据集和任务的测试，结果显示Transframer可以应用在多个广泛任务上。

其中就包括视频建模、新视图合成、语义分割、对象识别、深度估计、光流预测等等。

视频建模

通过Transframer在给定一系列输入视频帧的情况下预测下一帧。

研究人员分别在KITTI和RoboNet两个数据集上，训练了Transframer在视频生成上的性能如何。

对于KITTI，给定5个上下文帧和25采样帧，结果显示，Transframer模型在所有指标上的性能都有所提高，其中LPIPS和FVD的改进是最显而易见的。

在RoboNet上，研究人员给定2个上下文帧和10个采样帧，分别以64x64 和 128x128 的分辨率进行训练，最终也取得了非常好的结果。

视图合成

在视图合成方面，研究者通过提供相机视图作为表 1（第 3 行）中描述的上下文和目标注释，以及统一采样多个上下文视图，直到指定的最大值。

通过提供1-2个上下文视图，在ShapeNet 基准上评估模型Transframer，明显优于PixelNeRF和SRN。

此外在数据集Objectron进行评估后，可以看出当给定单个输入视图时，模型会产生连贯的输出，但会遗漏一些特征，比如交叉的椅子腿。

当给出1个上下文视图，以128×128分辨率合成的视图如下：

当再给出2个上下文视图，以128×128分辨率合成的视图如下：

多视觉任务

不同的计算机视觉任务通常使用复杂的架构和损失函数来处理。

这里，研究人员在8个不同的任务和数据集上使用相同的损失函数联合训练了Transframer模型。

这8个任务分别是：单个图像的光流预测、对象分类、检测和分割、语义分割（在2个数据集上）、未来帧预测和深度估计。

结果显示，Transframer学会在完全不同的任务中生成不同的样本，在某些任务中，比如 Cityscapes，该模型产生了质量上好的输出。

但是，在未来帧预测和边界框检测等任务上的模型输出质量参差不齐，这表明在此设置中建模更具挑战性。

参考资料：https://sites.google.com/view/transframer

文章标签：

计算机视觉

编解码

人工智能

AI芯片

-开发达人-

目录

相关文章

释然IT杂谈1

|

监控网络协议 Unix

不逊色Zabbix的开源监控LibreNMS:全功能网络监控

不逊色Zabbix的开源监控LibreNMS:全功能网络监控

释然IT杂谈1

2551 0 0

不逊色Zabbix的开源监控LibreNMS:全功能网络监控

nefelibata

|

人工智能运维 Cloud Native

2025年国内工单系统推荐：技术架构、场景适配与行业实践

分析了智能化升级、大数据驱动、云原生架构及全渠道融合四大技术趋势，从功能适配性、易用性、集成能力、安全性和性价比五个维度指导企业选型，并推荐合力亿捷等三家系统的优劣对比，结合电商和制造行业的实际案例，帮助企业提升客户服务水平与竞争力。

nefelibata

982 11 11

2025年国内工单系统推荐：技术架构、场景适配与行业实践

wljslmz

|

网络协议算法网络架构

深入理解RIP协议及其在网络路由中的作用

【8月更文挑战第24天】

wljslmz

1656 0 0

八音盒coding

|

JavaScript Java 测试技术

基于SpringBoot+Vue+uniapp的宠物寄养平台的详细设计和实现(源码+lw+部署文档+讲解等)

基于SpringBoot+Vue+uniapp的宠物寄养平台的详细设计和实现(源码+lw+部署文档+讲解等)

八音盒coding

304 0 0

DreamSpark

|

监控 NoSQL Redis

开发者如何使用阿里云Redis

【10月更文挑战第2天】开发者如何使用阿里云Redis

DreamSpark

2154 0 0

aliyun0641063962-48771

|

监控 Java PHP

深入理解 PHP 中的垃圾回收机制

PHP，作为一门广泛使用的服务器端脚本语言，其性能和资源管理一直是开发者关注的焦点。本文将深入探讨PHP中的垃圾回收机制，包括垃圾回收的工作原理、影响垃圾回收的因素，以及开发者如何通过代码优化来改善垃圾回收效率。通过本文，你将了解到PHP垃圾回收的内部细节，并掌握一些实用的技巧来提升你的应用性能。

aliyun0641063962-48771

207 3 3

ZShiJ

【题解】—— LeetCode一周小结39

LeetCode每日一道一周小结39

ZShiJ

128 7 7

快跑bug来啦

|

存储安全测试技术

DDR时序

快跑bug来啦

3848 0 0

阿里云安全_

|

7天前

|

云安全人工智能安全

阿里云入选Forrester报告七大全场景，引领中国AI原生云安全

喜报～

阿里云安全_

1278 7 11

新智元

热门文章

最新文章

ES6之Object.assign()用法，Object.assign()到底是浅拷贝还是深拷贝？

小红书如何实现高效推荐？解密背后的大数据计算平台架构

Promise实现原理（附源码）

JAVA实现的支付宝扫描二维码支付

深入解析SQL查询中的“HAVING”子句与“WHERE”子句的区别

[SWPUCTF 2021 新生赛]jicao

storybook让组件自动形成好看的文档~

递归（recursion）

SharePoint 跨域还原网站一则

突破 TTFB 瓶颈：企业官网重构中的 WordPress 数据库与云端缓存架构优化

边缘安全加速（ESA）技术解析与实战部署指南

Tair 替换 Redis 实战：企业级缓存升级的性能对比与零停机迁移方案

DeepSeek-V4-Pro快速接入教程：使用阿里云GPU服务器全流程

阿里云 Qoder CN 官方安装文档：独立 IDE 客户端、全系列 JetBrains 插件、VSCode 插件分步安装 + 登录配置

Qoder CN 怎么安装？独立 IDE 和 VS/JetBrains 插件两种方式

可回收垃圾目标检测数据集：5类别、13,000张图像 | 目标检测

【Azure Container App】Key Vault的Secret修改导致Container App重启，是否有办法规避呢？

4D Gaussian Splatting 是怎么工作的：从规范 Gaussian 到形变场的原理拆解

基于YOLO11的光伏电池板缺陷检测：从数据集构建到云上训练实践

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！