VideoWorld：字节开源自回归视频生成模型，支持输入视频指导AI生成视频！弥补文本生成视频的短板

2025-01-22 19

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，视频资源包5000点

简介： VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型，能够从未标注的视频数据中学习复杂知识，支持长期推理和规划任务。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：VideoWorld 能够从未标注的视频数据中学习复杂知识，支持长期推理和规划任务。
技术：基于 VQ-VAE 和自回归 Transformer 架构，结合潜在动态模型（LDM），实现高效的视频生成与任务推理。
应用：适用于围棋、机器人控制、自动驾驶、智能监控等多种复杂任务场景。

正文（附运行示例）

VideoWorld 是什么

VideoWorld

VideoWorld 是由北京交通大学、中国科学技术大学和字节跳动联合开发的自回归视频生成模型。该模型旨在探索深度生成模型是否能够仅通过未标注的视频数据学习复杂的知识，包括规则、推理和规划能力。

VideoWorld 的核心技术在于其自回归视频生成能力，通过观察视频来获取知识，不依赖于传统的文本或标注数据。这种能力使得 VideoWorld 能够在多种复杂任务中表现出色，如围棋和机器人控制。

VideoWorld 的主要功能

从未标注视频中学习复杂知识：VideoWorld 能仅通过未标注的视频数据学习复杂的任务知识，包括规则、推理和规划能力，无需依赖语言指令或标注数据。
自回归视频生成：使用 VQ-VAE 和自回归 Transformer 架构，VideoWorld 可以生成高质量的视频帧，通过生成的视频帧推断出任务相关的操作。
长期推理和规划：在围棋任务中，VideoWorld 能进行长期规划，选择最佳落子位置并击败高水平的对手（如 KataGo-5d）。在机器人任务中，VideoWorld 能够规划复杂的操作序列，完成多种机器人控制任务。
跨环境泛化能力：VideoWorld 能在不同的任务和环境中迁移所学的知识，表现出良好的泛化能力。
紧凑的视觉信息表示：LDM 将冗长的视觉信息压缩为紧凑的潜在代码，减少了信息冗余，提高了学习效率。
无需强化学习的自主学习：VideoWorld 不依赖于传统的强化学习方法（如搜索算法或奖励机制），而是通过纯视觉输入自主学习复杂的任务。
高效的知识学习与推理：VideoWorld 在围棋任务中达到了 5 段专业水平（Elo 2317），仅使用 3 亿参数，展示了其高效的知识学习能力。
视觉信息的深度理解：VideoWorld 能通过生成的视频帧和潜在代码，理解复杂的视觉信息，支持任务驱动的推理和决策。
支持多种任务类型：VideoWorld 不仅适用于围棋和机器人控制任务，还具有扩展到其他复杂任务的潜力，如自动驾驶、智能监控等领域。

VideoWorld 的技术原理

VQ-VAE（矢量量化-变分自编码器）：用于将视频帧编码为离散的 token 序列。VQ-VAE 通过矢量量化将连续的图像特征映射到离散的码本（codebook）中，生成离散的表示。
自回归 Transformer：基于离散 token 序列进行下一个 token 的预测。Transformer 架构利用自回归机制，根据前面的帧预测下一帧，从而生成连贯的视频序列。
潜在动态模型（LDM）：引入 LDM，将多步视觉变化压缩为紧凑的潜在代码，提高知识学习的效率和效果。LDM 能捕捉视频中的短期和长期动态，支持复杂的推理和规划任务。
视频生成与任务操作的映射：在生成视频帧的基础上，VideoWorld 进一步通过逆动态模型（Inverse Dynamics Model, IDM）将生成的视频帧映射为具体的任务操作。
数据驱动的知识学习：VideoWorld 通过大规模的未标注视频数据进行学习，减少了对人工标注数据的依赖，降低了数据准备的成本。

如何运行 VideoWorld

1. 环境配置

首先，确保你已经安装了 Conda 环境，并激活 VideoWorld 的虚拟环境：

conda create -n videoworld python=3.10 -y
conda activate videoworld
pip install --upgrade pip  
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121

2. 安装 VideoWorld

克隆 VideoWorld 的 GitHub 仓库并安装依赖：

git clone https://github.com/bytedance/VideoWorld.git
cd VideoWorld
bash install.sh

3. 推理示例

VideoWorld 支持围棋对战和机器人任务推理。以下是如何进行围棋对战的示例：

cd VideoWorld
bash install_katago.sh 
bash ./tools/battle_vs_human.sh

4. 训练示例

VideoWorld 的训练分为两个阶段：LDM 训练和自回归 Transformer 训练。以下是 LDM 训练的示例：

cd LDM 
bash ./tools/calvin_ldm_train.sh

资源

GitHub 仓库：https://github.com/bytedance/VideoWorld
arXiv 技术论文：https://arxiv.org/pdf/2501.09781