文档备案控制台

开发者社区 ModelScope模型即服务文章正文

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

2023-05-09 689

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

【新智元导读】Meta新模型Make-A-Video，可以从文本一键生成视频了！AI的进展太神了……

给你一段话，让你做个视频，你能行吗？

Meta表示，我可以啊。

你没听错：使用AI，你也可以变成电影人了！

近日，Meta推出了新的AI模型，名字起得也是非常直接：做个视频（Make-A-Video）。

这个模型强大到什么程度？

一句话，就能实现「三马奔腾」的场景。

就连LeCun都说，该来的总是会来的。

视觉效果超炫

话不多说，咱们直接看效果。

俩袋鼠在厨房忙着做饭（做出来能不能吃另说）

近景：画师在画布上作画

大雨中漫步的二人世界（步伐整齐划一）

马在喝水

芭蕾舞女孩在摩天大楼跳舞

美丽的夏日热带海滩上，一只金毛在吃冰激凌（爪子已进化）

猫主子拿着遥控器在看电视（爪子已进化）

一只泰迪熊给自己画自画像

意料之外但情理之中的是，狗拿冰淇淋、猫拿遥控器以及泰迪熊画画的「手」，果然都「进化」得和人一样啊！（战术后仰）

当然，Make-A-Video除了可以把文本变成视频之外，也可以把静态图变成Gif。

输入：

输出：

输入：

输出：（亮的似乎有点不是地方）

2张静图变GIF，输入陨石图

输出：

以及，把视频，变成视频？

输入：

输出：

输入：

输出：

技术原理

今天，Meta放出了自己的最新研究MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA。

论文地址：https://makeavideo.studio/Make-A-Video.pdf

在这个模型出现之前，我们已经有了Stable Diffusion。

聪明的科学家已经让AI用一句话生成图像了，下一步他们会做什么呢？

很显然，是生成视频。

一只穿着红色斗篷的超级英雄狗在天空中飞翔

比起生成图像来，生成视频可难多了。我们不仅需要生成相同主题和场景的多个帧，还必须让它们及时、连贯。

这就增加了图像生成任务的复杂性——我们不可能就简单地使用DALLE生成60张图像，然后把它们拼成一个视频。它的效果会很差，很不真实。

因此，我们需要一个能够以更强大的方式理解世界的模型，并且让它按照这种理解水平来生成一系列连贯的图像。只有这样，这些图像才可以天衣无缝地融合在一起。

也就是说，我们的诉求是模拟一个世界，然后再模拟它的记录。该怎么做到呢？

按照以前的思路，研究人员会用大量的文本-视频对来训练模型，但在现在的这种情况下，这种处理方法并不现实。因为这些数据很难获得，并且训练成本非常昂贵。

因此，研究人员开了脑洞，采用了一种全新的方式。

他们选择开发一个文本到图像的模型，然后把它应用于视频。

巧了，前段时间，Meta就曾开发过这么一个从文本到图像的模型Make-A-Scene。

Make-A-Scene的方法概述

文章标签：

媒体处理

人工智能

关键词：

AI模型

AI视频

AI meta

AI爆火

AI sota

-开发达人-

目录

相关文章

阿里云安全_

|

9月前

|

云安全人工智能自然语言处理

阿里云x硅基流动：AI安全护栏助力构建可信模型生态

阿里云AI安全护栏：大模型的“智能过滤系统”。

阿里云安全_

2790 120 124

探索云世界

|

10月前

|

人工智能自然语言处理 IDE

模型微调不再被代码难住！PAI和Qwen3-Coder加速AI开发新体验

通义千问 AI 编程大模型 Qwen3-Coder 正式开源，阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型，并可在交互式建模环境中使用 Qwen3-Coder 模型。

探索云世界

1456 109 110

卓伊凡

|

9月前

|

人工智能 API 数据安全/隐私保护

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

卓伊凡

1777 12 13

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

汀丶人工智能

|

11月前

|

人工智能自然语言处理搜索推荐

AI Compass前沿速览：Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台

AI Compass前沿速览：Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台

汀丶人工智能

1219 6 7

AI Compass前沿速览：Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台

TsingtaoAI

|

11月前

|

人工智能自然语言处理数据可视化

AI视频培训｜格律诗AI 视频创作与自媒体传播——某诗词学会

近日，TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈，直击实操：首日聚焦"工具认知+创作逻辑"，系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用，如将"月光在指尖碎裂"转化为动态场景；次日深入"语音表达+自媒体运营"，传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技，更结合抖音、小红书平台特性，解析"前5秒高光片段设计"等流量密码。

TsingtaoAI

881 3 3

代码bug生产队

|

9月前

|

人工智能搜索推荐程序员

当AI学会“跨界思考”：多模态模型如何重塑人工智能

当AI学会“跨界思考”：多模态模型如何重塑人工智能

代码bug生产队

1303 120 120

阿里云云原生

|

10月前

|

人工智能监控 Kubernetes

稳定支撑大规模模型调用，携程旅游的 AI 网关实践

为了进一步提升服务水平和服务质量，携程很早就开始在人工智能大模型领域进行探索。而随着工作的深入，大模型服务的应用领域不断扩大，公司内部需要访问大模型服务的应用也越来越多，不可避免的就遇到了几个问题，我们自然就会想到使用网关来对这些服务接入进行统一管理，并增加各种切面上的流量治理功能。

阿里云云原生

969 87 129

ModelScope模型即服务

热门文章

最新文章

中企投资印度新能源“有戏”吗？

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

2026 最新Stable Diffusion 本地部署教程下载安装使用详细图解（含官网安装包）

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

Claude Code 四大定制机制完全指南：CLAUDE.md、Hooks、Skills、Subagents 怎么选怎么用

docker安装部署FunASR

Seedance vs Sora vs Kling：AI 视频生成模型深度对比

告别纸质记录：AR现场巡检如何重塑工业运维效率

企业AI中台为什么要把AI工作助理放在第一优先级！

AR智能巡检：让一线工人拥有“透视”设备的超能力

Agent 工程里，上下文工程为什么比 Prompt 更重要？

告别爬塔危险：AR眼镜如何重构电力高空巡检安全标准

告别高空危险作业：AR眼镜如何重塑电力巡检安全标准

Claude Code 配置文件怎么写：settings.json 与 CLAUDE.md 完整指南

Codex 完整避坑指南（2026 版）：沙箱、权限、AGENTS.md、Worktree 七类坑一次讲清

告别高空攀爬：AR眼镜如何让电力巡检效率提升300%

企业做Agent，为什么要从“可用入口 + 能力资产 + 智能体工程”三件事一起设计

相关课程

更多

视觉AI技术体系及趋势概述

AIGC无处不在，把AI应用构建于Serverless之上

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

趣味视觉AI应用入门与实战

相关电子书

更多

AI 原生应用开源开发者沙龙·上海站电子书

AI原生应用开发实战营—Serverless AI专场·北京

阿里云 AI 原生应用开发实战营

相关实验场景

更多

通过OSS加速器加速AI数据传输

基于阿里云企业网盘搭建AI知识库

基于dify快速构建一款定制化AI工具

基于ECS部署一款规划行程的AI Agent

基于ECS部署DeepSeek个人专属AI网站

通过云原生API网关进行AI缓存

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！