你输文字,它生成视频:这款新模型让LeCun也开始转梗图了

简介: 你输文字,它生成视频:这款新模型让LeCun也开始转梗图了

脸书的视频生成新模型实现了 SOTA,但不知道是不是人类给的提示太简单了,生成内容有点惊悚。


你输入文字,AI 就能生成视频,很长一段时间里只存在于人们想象中的事现在已经实现了。



昨天,Meta(脸书)研究人员发布了在 AI 艺术领域的新成果 Make-A-Video,这是一种创造性地新技术,结果令人印象深刻且多种多样。虽然画面目前看起来都有点惊悚,但在 AI 圈里人们已经开始尝试批量制造梗图了,图灵奖获得者 Yann LeCun 也在不停转推它制造的内容。



在此之前,我们以前见过文本到视频模型大多数利用文本生成图像(如 DALL-E),它们从人类的提示中输出静止图像。不过,虽然从静止图像到移动图像的概念跳跃对于人类大脑来说很小,但在机器学习模型中想要实现却绝非易事。


Make-A-Video 实际上并没有在后端对这套过程进行太大的改变——正如研究人员在论文中指出的那样,「一个只看到描述图像的文本的模型在生成短视频方面出奇地有效。」


例如输入「A teddy bear painting a portrait」,即「一只画自画像的泰迪熊」,Make-A-Video 生成的视频如下动图所示:



论文《Make-A-Video: Text-to-video Generation without text-video data》:


从格式看是 ICLR 大会的投稿。


论文链接:

https://makeavideo.studio/Make-A-Video.pdf


该 AI 模型使用现有且有效的扩散技术来创建图像,其本质上是从纯视觉静态「去噪」向目标提示的逆向工作。这里要注意的是,该模型还对一堆未标记的视频内容进行了无监督训练(即在没有人类仔细指导的情况下用数据进行训练)。


Make-A-Video 不需要从头开始学习视觉和多模态表示,从一开始就知道如何制作逼真的图像,也不需要成对的文本视频数据,同时生成的视频风格多样,继承了当今图像生成模型的可扩展性。Meta 研究人员表示,在空间和时间分辨率、对文本的还原忠实度和质量的所有方面,Make-A-Video 实现了文本到视频生成的最高水平。


无论是空间和时间分辨率、还是与文本描述的符合程度,Make-A-Video 都在文本到视频的生成中达到了 SOTA 水平。

相比于之前从文本生成视频的系统,Make-A-Video 使用了不同的方法,实现了与 18 个月前在原始 DALL-E 或其他上一代系统中一致的图像保真度。


T2V 生成的图像示例。Meta 提出的模型可以为各种视觉概念生成具有连贯运动的高质量视频。


值得注意的是,AI 模型生成的图像往往因为太高清而失去真实感,保留一点瑕疵的图像和视频才更贴合实际。


Make-A-Video 的高级架构。给定由先验 P 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ,解码器 Dt 生成 16 个 64 × 64 分辨率的帧,然后通过 ↑F 将其插值到更高的帧速率,并提高分辨率到 SRt l 为 256 × 256,SRh 为 768 × 768,最后生成高时空分辨率的视频 y^。


作为一个脑补工具,Make-A-Video 也可以利用静止图像和其他视频转换为其变体或进行扩展,就像图像生成器也可以用图像本身作为提示一样。这样生成的结果就稍微没那么魔性了。


从文本、图像到视频,AI 工具的发展速度再次跨越了一个界限,不知在这项技术公开之后,人们会用它创造出哪些「艺术品」。Meta 表示,人们已经可以开始注册,并在近期获取开放的模型。


参考内容:

https://ai.facebook.com/blog/generative-ai-text-to-video/

https://techcrunch.com/2022/09/29/meta-make-a-video-ai-achieves-a-new-creepy-state-of-the-art/?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAB4gIQW9QJu8rwFfhRQVhojQ_bWREEj0nfCLOx79TjN1_V1X4KbLbrSuaQO09UOpAtXwxBAO99E6tFvVt8ohgLG_aujWfDmqmncpuKISvA6huYm_gAwVztePlcabeVjmeCqD3H8gXh9mVYeqg0CTP4TJn_TlJgmAKa5gMNtxIz9_


相关文章
|
缓存 Ubuntu 安全
Ubuntu部署和体验Nexus3
在局域网部署了Nexus之后,可以缓存中央仓库的jar,开发的二方库发布到Nexus上,局域网内的其他人也可以从Nexus下载这些二方库使用,本文就来实战快速部署和验证docker下的nexus3搭建
1053 0
Ubuntu部署和体验Nexus3
|
机器学习/深度学习 人工智能 异构计算
阿里等发布基于3D的人物图片转视频模型Champ
【4月更文挑战第21天】阿里联合南京大学、复旦大学发布创新模型Champ,实现3D人物图片转视频的突破。Champ运用SMPL模型与潜在扩散框架,提升形状对齐和运动引导能力,生成高质量人物动画,尤其擅长捕捉姿势和形状变化。模型通过细节处理增强面部表情和手指动作等细节,但面部和手部建模仍有提升空间。研究团队已进行效率优化,推动实际应用。[项目地址](https://fudan-generative-vision.github.io/champ/#/) | [论文地址](https://arxiv.org/abs/2403.14781)
418 1
|
消息中间件 关系型数据库 MySQL
Maxwell 概述、安装、数据同步【一篇搞定】!
Maxwell 是一个由 Zendesk 开源的用于 MySQL 数据库实时数据捕获和同步的工具,支持多种数据库系统,以 JSON 格式输出变更数据。它实时监控数据库中的更新,将变化传递给其他系统,常用于实时数据管道、数据仓库和事件驱动架构。Maxwell 具有实时性、可配置性和高性能等特点。其工作流程包括 Binlog 解析、数据解析、重构、发布到消息队列(如 Kafka)以及事件处理。安装时需注意 JDK 版本,并配置 MySQL、Zookeeper 和 Kafka。此外,Maxwell 支持定向监听特定库表,并能进行历史和增量数据同步。
2977 1
|
Kubernetes Cloud Native API
轻量级容器管理工具 Containerd
轻量级容器管理工具 Containerd
|
算法 前端开发 JavaScript
保姆级教程,如何发现 GitHub 上的优质项目?
保姆级教程,如何发现 GitHub 上的优质项目?
2382 0
保姆级教程,如何发现 GitHub 上的优质项目?
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32369 119
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6870 20
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手

热门文章

最新文章