StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 身份保持的视频合成:StableAnimator能够根据提供的参考图像和姿态序列,合成保持人物身份一致性的视频内容。
  2. 无需后处理:与传统的动画模型不同,StableAnimator无需依赖任何后处理工具,即可生成高质量动画。
  3. 高保真度:框架直接生成的视频具有高保真度,细节丰富,接近真实世界的人物动态和外观。

正文(附运行示例)

StableAnimator 是什么

公众号: 蚝油菜花 - StableAnimator

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学共同推出的端到端高质量身份保持视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。StableAnimator框架基于计算图像和面部嵌入、用全局内容感知面部编码器优化面部信息、引入分布感知ID适配器减少时间层干扰,在推理阶段采用基于Hamilton-Jacobi-Bellman方程的优化方法提升面部质量。

StableAnimator 的主要功能

  • 身份保持的视频合成:StableAnimator能根据提供的参考图像和姿态序列,合成保持人物身份一致性的视频内容。
  • 无需后处理:与传统的动画模型不同,StableAnimator无需依赖任何后处理工具,即可生成高质量动画。
  • 高保真度:框架直接生成的视频具有高保真度,细节丰富,接近真实世界的人物动态和外观。
  • 端到端框架:作为一个端到端的视频扩散框架,StableAnimator集成训练和推理模块,确保在整个动画生成过程中保持身份一致性。

StableAnimator 的技术原理

  • 图像和面部嵌入:StableAnimator使用现成的提取器分别计算图像和面部嵌入,为后续的身份保持提供基础特征。
  • 全局内容感知面部编码器:基于与图像嵌入的交互,面部编码器能进一步优化面部特征,增强模型对参考图像全局布局的感知能力。
  • 分布感知ID适配器:这一新颖组件能防止由于时间层引起的干扰,同时基于对齐操作保留身份信息,确保视频帧间的身份一致性。
  • Hamilton-Jacobi-Bellman (HJB) 方程优化:在推理阶段,基于HJB方程进行面部优化,进一步增强面部质量。基于与扩散去噪过程相结合,用优化路径引导模型朝着最佳的身份一致性方向发展。
  • 集成到扩散去噪过程:HJB方程的解决方案被集成到扩散去噪过程中,让去噪路径受到约束,有利于身份信息的保持。
  • 多路径处理:参考图像基于三个路径处理:VAE编码、CLIP图像编码和Arcface面部编码,将信息用在调制合成外观和确保身份一致性。

如何运行 StableAnimator

环境设置

推荐使用Python 3+和PyTorch 2.x,验证环境为Nvidia V100 GPU。建议使用Docker镜像进行环境配置。

pip install -r requirements.txt
conda install xformers -c xformers -y
pip install onnxruntime-gpu==1.17.0 --index-url=https://pkgs.dev.azure.com/onnxruntime/onnxruntime/_packaging/onnxruntime-cuda-12/pypi/simple

下载权重

如果遇到Hugging Face连接问题,可以使用镜像端点:

export HF_ENDPOINT=https://hf-mirror.com

下载权重:

cd StableAnimator/
mkdir checkpoints

权重组织结构:

checkpoints/
├── DWPose
│   ├── dw-ll_ucoco_384.onnx
│   └── yolox_l.onnx
├──Animation
│   ├── pose_net.pth
│   ├── face_encoder.pth
│   └── unet.pth
├──SVD
│   └── stable-video-diffusion-img2vid-xt
│       ├── feature_extractor
│       ├── image_encoder
│       ├── scheduler
│       ├── unet
│       ├── vae
│       ├── model_index.json
│       ├── svd_xt.safetensors
│       └── svd_xt_image_decoder.safetensors

模型推理

示例配置文件command_basic_infer.sh

bash command_basic_infer.sh

生成高质量MP4文件:

cd animated_images
ffmpeg -framerate 20 -i frame_%d.png -c:v libx264 -crf 10 -pix_fmt yuv420p /path/animation.mp4

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 搜索推荐 算法
【通义】AI视界|强制谷歌交出私有AI模型数据?美政府要对谷歌进行重大拆分
本文精选了24小时内的重要科技新闻,包括OpenAI董事会考虑采用PBC公司模式、o1推理模型贡献者Luke Metz离职、美国政府计划拆分谷歌、苹果AI功能遭质疑及股票评级下调、AI教父杰弗里·辛顿对其学生解雇OpenAI CEO感到自豪等内容。此外,文章还探讨了PBC模式对OpenAI的影响及其在法律和商业实践中的潜在挑战。点击[通义官网](https://tongyi.aliyun.com/qianwen?spm=a2c6h.13046898.publish-article.10.5ff66ffaj8oqp3&code=cykjlxy964)体验更多功能。
|
3月前
|
人工智能 安全 API
AI数据荒雪上加霜!MIT:网页数据的公开共享正走向衰落
【9月更文挑战第7天】麻省理工学院的一项新研究表明,尽管人工智能(AI)领域迅速发展,但网页数据的公开共享正在减少,加剧了AI数据短缺的问题。AI模型训练依赖大量数据,而网页数据是关键来源之一,其共享减少将影响AI进步,并引发数据隐私和安全方面的担忧。然而,这也推动了对数据隐私保护的关注及新型数据获取方式的探索。研究详情参见:[论文链接](https://www.dataprovenance.org/consent-in-crisis-paper)。
89 9
|
5月前
|
安全 TensorFlow 算法框架/工具
开源大模型与闭源大模型,你更看好哪一方?
开源大模型与闭源大模型,你更看好哪一方?
89 3
|
7月前
|
测试技术
华人团队推出视频扩展模型MOTIA
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
130 2
华人团队推出视频扩展模型MOTIA
|
7月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
61 2
浙大联合微软等提出全新视频编辑统一框架UniEdit
|
自动驾驶 安全 数据挖掘
自动驾驶汽车如何解决复杂交互问题?清华联合MIT提出M2I方案
自动驾驶汽车如何解决复杂交互问题?清华联合MIT提出M2I方案
107 0
|
传感器 人工智能 自然语言处理
Paper之ACMCH&UIST&ICUC&IJHC:2009年~2019年人机交互技术(计算系统人为因素会议&用户界面软件&计算国际会议&国际人类计算机研究&人机交互的交易)历年最佳论文简介及其解读
Paper之ACMCH&UIST&ICUC&IJHC:2009年~2019年人机交互技术(计算系统人为因素会议&用户界面软件&计算国际会议&国际人类计算机研究&人机交互的交易)历年最佳论文简介及其解读
Paper之ACMCH&UIST&ICUC&IJHC:2009年~2019年人机交互技术(计算系统人为因素会议&用户界面软件&计算国际会议&国际人类计算机研究&人机交互的交易)历年最佳论文简介及其解读
|
机器人 Java 程序员
首次公开!三代技术人深度对话,《云上朗读者》开放下载
阿里云 MVP历时上百天,走近各行各业一线技术人,倾听他们成功背后的故事。蒋江伟(小邪)推荐——18位在前线的阿里云 MVP不为人知的心路历程,科技发展与经济格局的变化,抓住时代机遇勇于创新,从容面对挑战,走近三代技术人解锁他们对新基建与云上未来的深刻洞见。
27424 0
首次公开!三代技术人深度对话,《云上朗读者》开放下载
国内量子计算新进展,上交大团队成功运行专用算法
这一研究让量子计算的物理实现成为可能。
484 0

热门文章

最新文章