Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

2025-01-07 191

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： Cosmos 是英伟达推出的生成式世界基础模型平台，旨在加速物理人工智能系统的发展，特别是在自动驾驶和机器人领域。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：生成高度仿真的虚拟世界状态，支持自动驾驶和机器人应用。
技术：基于生成式模型和高级标记器，提供高效的视频处理管道。
应用：广泛应用于自动驾驶模拟、机器人训练和工业数字孪生。

正文（附运行示例）

Cosmos 是什么

公众号: 蚝油菜花 - Cosmos

Cosmos 是英伟达推出的生成式世界基础模型平台，旨在加速物理人工智能（AI）系统的发展，特别是在自动驾驶和机器人领域。Cosmos 能接受文本、图像或视频的提示，生成高度仿真的虚拟世界状态，为自动驾驶和机器人应用提供独特的视频输出。

平台集成了生成式世界基础模型、高级标记器和加速视频处理管道，帮助开发者生成大量基于物理的合成数据，减少对真实世界数据的依赖。Cosmos 还提供了安全防护机制，确保数据的安全与合规。开发者可以通过微调 Cosmos 模型来创建定制化的 AI 模型，满足特定的应用需求。

Cosmos 的主要功能

生成虚拟世界状态：根据文本、图像或视频的提示生成高度仿真的虚拟世界状态，适用于自动驾驶和机器人应用。
生成式模型：基于生成式模型快速生成与真实世界场景相似的数据，帮助开发者训练和评估现有的 AI 模型。
高级标记器和数据处理：集成了高级标记器和加速视频处理管道，生成的数据在后续的模型训练中发挥更大的作用。
安全与合规：提供了安全防护机制，确保数据的安全与合规。
开放模型许可：以开放模型许可的形式在 Hugging Face 和 NVIDIA NGC 目录中提供，支持开发者进行定制化应用。

Cosmos 的技术原理

生成式世界基础模型（WFM）：使用先进的生成式模型技术，模型包括扩散模型和自回归 Transformer 模型，能生成与真实世界场景高度相似的合成数据。
高级标记器（Cosmos Tokenizer）：使用复杂的编码器-解码器结构，结合 3D 因果卷积和注意力机制，高效地处理时空信息。
加速视频处理管道（NeMo Curator）：集成了一个加速视频处理管道，能在短时间内处理大量视频数据。

如何运行 Cosmos

1. 安装 Cosmos

首先，按照 Cosmos 安装指南设置 Docker 环境。

2. 使用预训练模型进行推理

以下是一个使用 7B 模型进行推理的代码示例：

PROMPT="A sleek, humanoid robot stands in a vast warehouse filled with neatly stacked cardboard boxes on industrial shelves. \
The robot's metallic body gleams under the bright, even lighting, highlighting its futuristic design and intricate joints. \
A glowing blue light emanates from its chest, adding a touch of advanced technology. The background is dominated by rows of boxes, \
suggesting a highly organized storage system. The floor is lined with wooden pallets, enhancing the industrial setting. \
The camera remains static, capturing the robot's poised stance amidst the orderly environment, with a shallow depth of \
field that keeps the focus on the robot while subtly blurring the background for a cinematic effect."

# 使用 7B 模型进行推理
PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/text2world.py \
    --checkpoint_dir checkpoints \
    --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \
    --prompt "$PROMPT" \
    --offload_prompt_upsampler \
    --video_save_name Cosmos-1.0-Diffusion-7B-Text2World

3. 微调模型

可以参考 Cosmos 微调指南进行模型微调。

资源

项目官网：https://www.nvidia.com/cosmos/
GitHub 仓库：https://github.com/NVIDIA/Cosmos
技术论文：https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

🚀 快速阅读

正文（附运行示例）

Cosmos 是什么

Cosmos 的主要功能

Cosmos 的技术原理

如何运行 Cosmos

1. 安装 Cosmos

2. 使用预训练模型进行推理

3. 微调模型

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景