开源版哆啦A梦任意门:魔搭社区AnyDoor最佳实践

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: AnyDoor是一种基于扩散模型的图像生成模型,以非常和谐的方式将目标对象传送到用户制定位置的新场景的能力。过程中不需要为每个对象调整参数,只需要训练一次,并在推理阶段适用于各种不同的对象-场景组合。

一 引言

AnyDoor是一种基于扩散模型的图像生成模型,以非常和谐的方式将目标对象传送到用户制定位置的新场景的能力。过程中不需要为每个对象调整参数,只需要训练一次,并在推理阶段适用于各种不同的对象-场景组合。

AnyDoor这样的具有挑战型的zero shot的图像生成方法需要针对特定的目标对象进行特征化,我们用细节特征补充过去常用的ID特征,细节特征保持了目标的纹理细节,并允许适配场景的通用的局部的变化(例如,光线、方向、姿势等),支持对象和不同的周围环境场景的适配。同时,我们进一步的从视频数据中获取知识,通过视频数据观察单个目标对象的沿着时间轴各种形式,来保障了AnyDoor模型的鲁棒性和概括性。

AnyDoor的整体Pipeline如下图所示,首先采用分割模块从目标图像中去掉背景,然后使用ID提取器获取对象的身份信息,然后通过高通滤波器处理无背景的目标图像,形成hf-map并和所需位置的场景信息拼接在一起。然后采用细节提取器获取目标图像的纹理细节,作为ID提取器的补充。最后讲ID token和detail map注入到通过视频等信息训练好的预训练模型,从而生成最终的合成图片,其中目标对象与其周围环境场景顺利融合,同时目标对象配合场景有适当的局部变化,其中火焰和雪花分别指可学习参数和冻结参数。

该技术上线后,短时间内成为github global trending榜No.1,期待AnyDoor这样的AI技术,成为大家的哆啦A梦,完成童年梦想!

二、模型体验

魔搭创空间地址:https://modelscope.cn/studios/damo/AnyDoor-online

mask后的桌面(场景)和小鸭子(目标)

mask后的女子(场景)和衣服(目标)

三、环境准备

环境配置与安装

  1. python 3.8及以上版本
  2. pytorch 1.12及以上版本,推荐2.0及以上版本
  3. 建议使用CUDA 11.4及以上

本文主要演示的模型推理代码可在魔搭社区免费实例PAI-DSW的配置下运行(显存24G) :

第一步:点击模型右侧Notebook快速开发按钮,选择GPU环境

第二步:新建Notebook

第三步:环境依赖最新的modelscope的library

!git clone https://github.com/modelscope/modelscope.git
%cd modelscope
!pip install .


四、模型推理

模型推理代码:

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
ref_image = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_fg.png'
ref_mask = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_fg_mask.png'
bg_image = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_bg.png'
bg_mask = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_bg_mask.png'
anydoor_pipline = pipeline(
    Tasks.image_to_image_generation, model='damo/AnyDoor_models')
out = anydoor_pipline((ref_image, ref_mask, bg_image, bg_mask))
image = out['output_img']
image.save('output/image_anydoor_gen.png')


快来体验任意门(AnyDoor)吧!

点击链接:modelscope.cn/studios/damo/AnyDoor-online/

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
28天前
|
人工智能
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。
38 5
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
|
5月前
|
人工智能 Swift 决策智能
社区供稿 | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
在 2024 年 7 月 4 日的 WAIC 科学前沿主论坛上,上海人工智能实验室推出了书生·浦语系列模型的全新版本——InternLM2.5。
|
5月前
|
人工智能 Kubernetes Cloud Native
利用通义灵码实现我的第一次开源贡献
本文将分享作者的开源之旅。
|
8月前
|
人工智能 Rust Apache
社区供稿 | 更长、更强、更开放,零一万物 Yi-1.5 系列开源模型发布一周广受好评
5 月 13 日,零一万物 Yi 系列开源模型全新升级为 Yi-1.5。相较于去年 11 月的开源版本,这次的 Yi-1.5 在保持原 Yi 系列模型优秀的通用语言能力的前提下,通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。
|
人工智能 自然语言处理 IDE
人手一个编程助手!北大代码大模型CodeShell-7B开源,魔搭社区最佳实践来了!
CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。
|
人工智能 自然语言处理 达摩院
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
SeqGPT是一个不限领域的文本理解大模型。无需训练,即可完成实体识别、文本分类、阅读理解等多种任务。该模型基于Bloomz在数以百计的任务数据上进行指令微调获得。模型可以在低至16G显存的显卡上免费使用。目前SeqGPT已经在魔搭社区开源,欢迎体验!
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
|
存储 分布式计算 NoSQL
惊 GitHub首次开源!在国内外都被称为分布式理论+实践的巅峰之作
如果你是一位软件行业从业者,尤其是从事服务器端或者后台系统软件开发,相信近年来一定被层出不穷的商业名词所包围:NoSQL、Big Data、Web-scale、Sharding.Eventual consistency、ACID、CAP理论、云服务、MapReduce和Real-time等,所有这些其实都围绕着如何构建高效存储与数据处理这一核心主题。过去十年,在数据库领域与分布式系统方面涌现了许多引人瞩目的进展,由此深刻地影响了如何构建上层应用系统。
|
自然语言处理 安全 数据可视化
百川模型第二波,魔搭最佳实践教程来了!
百川智能宣布正式发布并开源Baichuan 2!开源包括Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本,并且均为免费可商用。
|
数据采集 机器学习/深度学习 人工智能
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(1)
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
361 0
|
机器学习/深度学习 人工智能 算法
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(2)
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
343 0