MultiBooth:清华联合 Meta 推出多对象的图像生成框架,生成包含多个指定对象的图像

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法,支持高效生成高保真度图像,适用于娱乐、广告、教育等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持从文本生成包含多个指定概念的高保真度图像。
  2. 技术:基于多模态图像编码器和区域定制化模块,实现高效多概念生成。
  3. 应用:广泛应用于娱乐、广告、教育、电子商务和科研等领域。

正文(附运行示例)

MultiBooth 是什么

multibooth

MultiBooth 是由清华大学深圳国际研究生院、Meta、香港科技大学等机构联合推出的多概念图像生成方法。它能够根据用户提供的文本提示,生成包含多个指定概念的图像。MultiBooth 的生成过程分为两个阶段:单概念学习和多概念整合。

在单概念学习阶段,MultiBooth 使用多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示。通过 LoRA 技术,MultiBooth 提高了概念保真度。在多概念整合阶段,MultiBooth 使用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,确保不同概念之间的准确交互。

MultiBooth 的主要功能

  • 多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。
  • 高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示高度对齐。
  • 高效推理:推理成本较低,不会随着概念数量的增加而显著增加推理时间。
  • 插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练模型。

MultiBooth 的技术原理

  • 多模态图像编码器:使用 QFormer 编码器,输入图像和概念名称,生成与文本对齐的定制化嵌入表示。
  • 自适应概念归一化(ACN):调整定制化嵌入的 L2 范数,解决嵌入空间中的域间差异问题。
  • 高效概念编码技术:使用 LoRA 技术对 U-Net 中的注意力层进行低秩分解,提高单概念学习的概念保真度。
  • 区域定制化模块(RCM):根据边界框和区域提示,将图像特征划分为不同区域,每个区域由相应的单概念模块和提示引导生成概念。

如何运行 MultiBooth

1. 安装依赖

首先,确保你已经安装了 Python 3.8 或更高版本。然后,克隆 MultiBooth 的 GitHub 仓库并安装依赖:

git clone https://github.com/chenyangzhu1/MultiBooth.git
cd MultiBooth
pip install -r requirements.txt

2. 下载预训练模型

MultiBooth 基于 Stable Diffusion v1.5 模型,你需要下载预训练模型:

wget https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned-emaonly.ckpt

3. 运行示例代码

以下是一个简单的示例代码,展示如何使用 MultiBooth 生成多概念图像:

from multibooth import MultiBooth

# 初始化 MultiBooth
multibooth = MultiBooth(model_path="v1-5-pruned-emaonly.ckpt")

# 定义文本提示和概念
text_prompt = "A young woman wearing a floral dress and a straw hat, standing in a sunny field."
concepts = ["floral dress", "straw hat"]

# 生成图像
image = multibooth.generate(text_prompt, concepts)
image.save("output.png")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
1月前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
56 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
7月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
167 0
|
自然语言处理 API 数据处理
面向低资源和增量类型的命名实体识别挑战赛PaddleNLP解决方案
面向低资源和增量类型的命名实体识别挑战赛PaddleNLP解决方案
107 0
|
机器学习/深度学习 人工智能 自然语言处理
CasEE: 一种用于重叠事件抽取的级联解码联合学习框架 论文解读
事件抽取(Event extraction, EE)是一项重要的信息抽取任务,旨在抽取文本中的事件信息。现有方法大多假设事件出现在句子中没有重叠,这不适用于复杂的重叠事件抽取。
297 0
|
数据采集 自然语言处理 数据挖掘
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
175 0
|
文字识别 算法 测试技术
DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA
DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA
1087 0
|
人工智能 计算机视觉
分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型
分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型
252 0
|
人工智能 数据可视化 人机交互
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
284 0

热门文章

最新文章