阿里巴巴开源可控视频生成框架VideoComposer!(内含体验、推理实践干货)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 8月16日,时间、空间可控的视频生成模型 VideoComposer 在魔搭社区开源。

导读

8月16日,时间、空间可控的视频生成模型 VideoComposer  在魔搭社区开源。

https://live.csdn.net/v/322097


VideoComposer是由阿里巴巴研发的可控视频生成框架,其可以让用户更灵活地使用文本条件、空间条件和时序条件来生成视频,比如使用草图、深度图或运动向量等多个组合条件合成目标视频,极大地提高了视频灵活性和可控性。本项目相比于之前的开源项目主要增加了无水印数据训练,可使得生成的视频没有水印。此外,本项目目前只支持文本+深度图+Style方便体验。image.png

模型介绍

VideoComposer采用组合式生成策略,旨在提升视频生成的可控性,包括两个部分:

组合条件,首先将视频分解成三种重要的要素,即文本条件、空间条件和视频特有时序条件,分表表示视频的概要内容、空间布局和细节以及运动模式,以此重构该视频。在训练过程中,通过按照特定概率随机Mask部分条件,使得VideoComposer具有随机组合任意条件以控制视频生成

时空条件编码器STC-encoder,由空间卷集提取空间特征,时序Transformer对输入条件做时序编码两部分构成,其作为统一接口策略可以编码多个条件以生成更高稳定的视频,并可以更容易地拓展到其他的条件

环境配置与安装

本文在1*A10的环境配置下运行 (显存要求22G)

python>=3.8

实验环境准备

选择ModelScope Notebook免费实例PAI-DSW。选择GPU环境,镜像如下(要选择torch1.11.0的镜像):

image.png

安装最新ModelScope

打开Notebook,在Terminal中运行代码:

pip install "modelscope" --upgrade -f https://pypi.org/project/modelscope/

安装依赖库

pip install motion-vector-extractor>=1.0.6
pip install scikit-video>=1.1.11
pip install pynvml>=11.5.0
pip install numpy==1.24.2
pip install bitsandbytes==0.38.1

模型链接及下载

VideoComposer 模型链接:

https://modelscope.cn/models/damo/VideoComposer/summary

模型weights下载

VideoComposerfrom modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('damo/VideoComposer', cache_dir='model_weights/', revision='v1.0.4')

模型推理

环境配置完成后,打开Notebook:

import cv2
import sys
from modelscope.msdatasets import MsDataset
from modelscope.pipelines import pipeline
from modelscope.utils.constant import DownloadMode, Tasks
sys.argv = ['run.py']

导入pipeline:

pipe = pipeline(
    task=Tasks.text_to_video_synthesis,
    model='damo/VideoComposer',
    model_revision='v1.0.4',
    download_mode=DownloadMode.FORCE_REDOWNLOAD)

载入测试样例,输入由三个部分组成:

  • 视频,待编辑视频,建议主体目标显著,居中;
  • 风格图,选一张期望的风格图,风格显著时会,效果会好一些;
  • 文本,描述期望输出的视频对应的文本,VideoComposer可以做一定的目标转换;
ds = MsDataset.load(
    'buptwq/videocomposer-depths-style',
    split='train',
    download_mode=DownloadMode.FORCE_REDOWNLOAD)

推理:

inputs = next(iter(ds))
inputs.update({
    'text':
    'A glittering and translucent fish swimming in a small glass bowl with multicolored piece of stone, like a glass fish'
})
print('inputs: ', inputs)
output = pipe(inputs)

输出文件保存在outputs/rank.gif。

您也可以通过以下方式测试自己的数据:

image_in = '<image路径>'
video_in = '<video路径>'
text_in = '<文字描述>'
inputs = {'Image:FILE': image_in, 'Video:FILE': video_in, 'text':text_in}
print('inputs: ', inputs)
output = pipe(inputs)

关于模型更多的能力,可以将源码中的‘non_ema_228000.pth’替换成本项目中的‘non_ema_141000_no_watermark.pth’,即可体验无水印的运动迁移、草图生成视频、风格转换等其他多项能力,欢迎开发者的尝试和建议。

创空间体验

VideoComposer Demo创空间链接:

https://modelscope.cn/studios/damo/VideoComposer-Demo/summary

image.png

https://modelscope.cn/studios/damo/VideoComposer-Demo/summary

相关文章
|
1月前
|
人工智能 PyTorch 算法框架/工具
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
【8月更文挑战第6天】Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
|
1月前
|
人工智能 自然语言处理 API
动手实践:高效构建企业级AI搜索
本文介绍了基于阿里云 Elasticsearch的AI搜索产品能力、业务价值、场景应用,以及搭建演示等。
10893 4
|
4月前
|
机器学习/深度学习 人工智能 安全
算子开发到推理加速,一位00后开发者的“升级打怪”之旅
郑辉,从大四学生到资深AI开发者,他的成长轨迹映射了中国AI生态的繁荣。他独立开发的NonZero算子被纳入CANN主线,参与的深度学习框架降低了大模型训练门槛。在昇腾AI生态中,郑辉们正助力大模型发展。从初次接触分布式机器学习到优化算子,再到参与大模型推理加速项目,郑辉在实践中不断成长,他的工作有望帮助开发者更高效地部署在线推理服务。他的故事展示了开发者如何通过团队合作和持续学习,克服挑战,推动AI在各行业的应用,照亮智能化之路。
|
24天前
|
机器学习/深度学习 编译器 PyTorch
自研分布式训练框架EPL问题之吸引社区参与共建如何解决
自研分布式训练框架EPL问题之吸引社区参与共建如何解决
|
4月前
|
机器学习/深度学习 缓存 算法
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
|
3月前
|
域名解析 弹性计算 开发者
期待已久,重磅回归,阿里云推出全新《高效构建企业门户网站方案》,你想了解的,这一篇就足够了。
期待已久,重磅回归,《高效构建企业门户网站方案》,你想了解的,这一篇就足够了。
24434 2
|
4月前
|
前端开发 JavaScript IDE
蚂蚁CodeFuse新版发布,前端能力优化,支持安卓开发
蚂蚁百灵研发助手 CodeFuse 插件发布新版,本版本新增支持 Android Studio,并针对 JavaScript、TypeScript 等前端语言优化了模型效果,同时还将输出Token增加到最多 1024 个。目前 CodeFuse 处于邀请测试阶段,欢迎各位开发者前往官网申请资格参与测试。在之前已安装插件的用户需要下载最新版本,才可享受 CodeFuse 插件最新能力。
204 1
|
4月前
|
机器学习/深度学习 数据采集 人工智能
大模型时代如何快速开发AI应用?云上开发的优势与入门技巧
本文探讨了在大模型时代如何快速开发AI应用,包括选择合适的开发工具和框架、掌握常用的算法和模型、利用开源项目和社区资源以及注重数据预处理和特征工程等方面的技巧。此外,文章还介绍了云上AI开发的优势,包括高效的计算资源、便捷的协同办公、灵活的资源调度和安全可靠的数据存储和处理。最后,文章分享了一些快速入门AI开发的教程和技巧,帮助初学者更好地掌握AI开发的基础知识和实用技能。
337 1
|
机器学习/深度学习 存储 人工智能
如何构建可持续的ChatGPT高性能服务器端架构?
与之前的版本相比,GPT-4最大的改进是其多模态(multimodal)能力——它不仅能够阅读文字,还能识别图像。值得注意的是,虽然之前有消息称GPT-4拥有100万亿个参数,但OpenAI并没有证实这个数字。与其相比,OpenAI更强调GPT-4的多模态能力以及其在各种测试中的表现。
如何构建可持续的ChatGPT高性能服务器端架构?
|
开发者
《云时代开发者能力模型与提升之道》电子版地址
4 - 云时代开发者能力模型与提升之道
52 0
《云时代开发者能力模型与提升之道》电子版地址