❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:VideoWorld 能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
- 技术:基于 VQ-VAE 和自回归 Transformer 架构,结合潜在动态模型(LDM),实现高效的视频生成与任务推理。
- 应用:适用于围棋、机器人控制、自动驾驶、智能监控等多种复杂任务场景。
正文(附运行示例)
VideoWorld 是什么
VideoWorld 是由北京交通大学、中国科学技术大学和字节跳动联合开发的自回归视频生成模型。该模型旨在探索深度生成模型是否能够仅通过未标注的视频数据学习复杂的知识,包括规则、推理和规划能力。
VideoWorld 的核心技术在于其自回归视频生成能力,通过观察视频来获取知识,不依赖于传统的文本或标注数据。这种能力使得 VideoWorld 能够在多种复杂任务中表现出色,如围棋和机器人控制。
VideoWorld 的主要功能
- 从未标注视频中学习复杂知识:VideoWorld 能仅通过未标注的视频数据学习复杂的任务知识,包括规则、推理和规划能力,无需依赖语言指令或标注数据。
- 自回归视频生成:使用 VQ-VAE 和自回归 Transformer 架构,VideoWorld 可以生成高质量的视频帧,通过生成的视频帧推断出任务相关的操作。
- 长期推理和规划:在围棋任务中,VideoWorld 能进行长期规划,选择最佳落子位置并击败高水平的对手(如 KataGo-5d)。在机器人任务中,VideoWorld 能够规划复杂的操作序列,完成多种机器人控制任务。
- 跨环境泛化能力:VideoWorld 能在不同的任务和环境中迁移所学的知识,表现出良好的泛化能力。
- 紧凑的视觉信息表示:LDM 将冗长的视觉信息压缩为紧凑的潜在代码,减少了信息冗余,提高了学习效率。
- 无需强化学习的自主学习:VideoWorld 不依赖于传统的强化学习方法(如搜索算法或奖励机制),而是通过纯视觉输入自主学习复杂的任务。
- 高效的知识学习与推理:VideoWorld 在围棋任务中达到了 5 段专业水平(Elo 2317),仅使用 3 亿参数,展示了其高效的知识学习能力。
- 视觉信息的深度理解:VideoWorld 能通过生成的视频帧和潜在代码,理解复杂的视觉信息,支持任务驱动的推理和决策。
- 支持多种任务类型:VideoWorld 不仅适用于围棋和机器人控制任务,还具有扩展到其他复杂任务的潜力,如自动驾驶、智能监控等领域。
VideoWorld 的技术原理
- VQ-VAE(矢量量化-变分自编码器):用于将视频帧编码为离散的 token 序列。VQ-VAE 通过矢量量化将连续的图像特征映射到离散的码本(codebook)中,生成离散的表示。
- 自回归 Transformer:基于离散 token 序列进行下一个 token 的预测。Transformer 架构利用自回归机制,根据前面的帧预测下一帧,从而生成连贯的视频序列。
- 潜在动态模型(LDM):引入 LDM,将多步视觉变化压缩为紧凑的潜在代码,提高知识学习的效率和效果。LDM 能捕捉视频中的短期和长期动态,支持复杂的推理和规划任务。
- 视频生成与任务操作的映射:在生成视频帧的基础上,VideoWorld 进一步通过逆动态模型(Inverse Dynamics Model, IDM)将生成的视频帧映射为具体的任务操作。
- 数据驱动的知识学习:VideoWorld 通过大规模的未标注视频数据进行学习,减少了对人工标注数据的依赖,降低了数据准备的成本。
如何运行 VideoWorld
1. 环境配置
首先,确保你已经安装了 Conda 环境,并激活 VideoWorld 的虚拟环境:
conda create -n videoworld python=3.10 -y
conda activate videoworld
pip install --upgrade pip
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
2. 安装 VideoWorld
克隆 VideoWorld 的 GitHub 仓库并安装依赖:
git clone https://github.com/bytedance/VideoWorld.git
cd VideoWorld
bash install.sh
3. 推理示例
VideoWorld 支持围棋对战和机器人任务推理。以下是如何进行围棋对战的示例:
cd VideoWorld
bash install_katago.sh
bash ./tools/battle_vs_human.sh
4. 训练示例
VideoWorld 的训练分为两个阶段:LDM 训练和自回归 Transformer 训练。以下是 LDM 训练的示例:
cd LDM
bash ./tools/calvin_ldm_train.sh
资源
- GitHub 仓库:https://github.com/bytedance/VideoWorld
- arXiv 技术论文:https://arxiv.org/pdf/2501.09781
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦