Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置

简介: Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置




 新智元报道  

编辑:LRS

【新智元导读】再也不用担心图像生成的位置错乱了!


随着Stable Diffusion的开源,用自然语言进行图像生成也逐渐普及,许多AIGC的问题也暴露了出来,比如AI不会画手、无法理解动作关系、很难控制物体的位置等。

 

其主要原因还是在于「输入接口」只有自然语言,无法做到对画面的精细控制

 

最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员提出了一个全新的方法GLIGEN,以grounding输入为条件,对现有「预训练文本到图像扩散模型」的功能进行扩展。

 

论文链接:https://arxiv.org/pdf/2301.07093.pdf

项目主页:https://gligen.github.io/

体验链接:https://huggingface.co/spaces/gligen/demo

 

为了保留预训练模型的大量概念知识,研究人员没有选择对模型进行微调,而是通过门控机制将输入的不同grounding条件注入到新的可训练层中,以实现对开放世界图像生成的控制。

 

目前GLIGEN支持四种输入。

 

(左上)文本实体+box (右上)图像实体+box

(左下)图像风格+文本+box (右下)文本实体+关键点

 

实验结果也显示,GLIGEN 在 COCO 和 LVIS 上的zero-shot性能大大优于目前有监督layout-to-image基线。

 

可控图像生成

 

在扩散模型之前,生成对抗网络(GANs)一直是图像生成领域的一哥,其潜空间和条件输入在「可控操作」和「生成」方面得到了充分的研究。

 

文本条件自回归和扩散模型表现出惊人的图像质量和概念覆盖率,得益于其更稳定的学习目标和对网络图像-文本配对数据的大规模训练,并迅速出圈,成为辅助艺术设计和创作的工具。

 

但现有的大规模文本-图像生成模型不能以「文本之外」的其他输入模式为条件,缺乏精确定位概念或使用参考图像来控制生成过程的能力,限制了信息的表达。

 

比如说,使用文本很难描述一个物体的精确位置,而边界框(bounding

boxes)或关键点(keypoints)则可以很容易实现。

 

 

现有的一些工具如inpainting, layout2img生成等可以利用除文本以外的模态输入,但却很少将这些输入结合起来用于可控的text2img生成。

 

此外,先前的生成模型通常是在特定任务的数据集上独立训练的,而在图像识别领域,长期以来的范式是通过从「大规模图像数据」或「图像-文本对」上预训练的基础模型开始建立特定任务的模型。

 

扩散模型已经在数十亿的图像-文本对上进行了训练,一个很自然的问题是:我们能否在现有的预训练的扩散模型的基础上,赋予它们新的条件输入模式?

 

由于预训练模型所具有的大量概念知识,可能能够在其他生成任务上取得更好的性能,同时获得比现有文本-图像生成模型更多的可控性。

 

GLIGEN

 

基于上述目的和想法,研究人员提出的GLIGEN模型仍然保留文本标题作为输入,但也启用了其他输入模态,如grounding概念的边界框、grounding参考图像和grounding部分的关键点。

 

这里面的关键难题是在学习注入新的grounding信息的同时,还保留预训练模型中原有的大量概念知识。

 

为了防止知识遗忘,研究人员提出冻结原来的模型权重,并增加新的可训练的门控Transformer层以吸收新的grouding输入,下面以边界框为例。

 

指令输入

 

 

每个grouding文本实体都被表示为一个边界框,包含左上角和右下角的坐标值。

 

需要注意的是,现有的layout2img相关工作通常需要一个概念词典,在评估阶段只能处理close-set的实体(如COCO类别),研究人员发现使用编码图像描述的文本编码器即可将训练集中的定位信息泛化到其他概念上。

 

训练数据

 

用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件,在实践中可以通过考虑更灵活的输入来放松对数据的要求。

 

 

主要有三种类型的数据

 

1. grounding数据

 

每张图片都与描述整张图片的标题相关联;名词实体从标题中提取,并标上边界框。

 

由于名词实体直接取自自然语言的标题,它们可以涵盖更丰富的词汇,有利于开放世界词汇的grounding生成。

 

2. 检测数据 Detection data

 

名词实体是预先定义的close-set类别(例如COCO中的80个物体类别),选择使用classifier-free引导中的空标题token作为标题。

 

检测数据的数量(百万级)大于基础数据(千级),因此可以大大增加总体训练数据。

 

3. 检测和标题数据 Detection and Caption data

 

名词实体与检测数据中的名词实体相同,而图像是单独用文字标题描述的,可能存在名词实体与标题中的实体不完全一致的情况。

 

比如标题只给出了对客厅的高层次描述,没有提到场景中的物体,而检测标注则提供了更精细的物体层次的细节。

 

门控注意力机制

 

研究人员的目标是为现有的大型语言-图像生成模型赋予新的空间基础能力,

 

大型扩散模型已经在网络规模的图像文本上进行了预训练,以获得基于多样化和复杂的语言指令合成现实图像所需的知识,由于预训练的成本很高,性能也很好,在扩展新能力的同时,在模型权重中保留这些知识是很重要的,可以通过调整新的模块来逐步适应新能力。

 

 

在训练过程中,使用门控机制逐渐将新的grounding信息融合到预训练的模型中,这种设计使生成过程中的采样过程具有灵活性,以提高质量和可控性。

 

实验中也证明了,在采样步骤的前半部分使用完整的模型(所有层),在后半部分只使用原始层(没有门控Transformer层),生成的结果能够更准确反映grounding条件,同时具有较高的图像质量。

 

实验部分

 

在开放集合grounded文本到图像生成任务中,首先只用COCO(COCO2014CD)的基础标注进行训练,并评估GLIGEN是否能生成COCO类别以外的基础实体。

 

 

可以看到,GLIGEN可以学会新的概念如「蓝鸦」、「羊角面包」,或新的物体属性如「棕色木桌」,而这些信息没有出现在训练类别中。

 

研究人员认为这是因为GLIGEN的门控自注意力学会了为接下来的交叉注意力层重新定位与标题中的接地实体相对应的视觉特征,并且由于这两层中的共享文本空间而获得了泛化能力。

 

实验中还定量评估了该模型在LVIS上的zero-shot生成性能,该模型包含1203个长尾物体类别。使用GLIP从生成的图像中预测边界框并计算AP,并将其命名为GLIP得分;将其与为layout2img任务设计的最先进的模型进行比较,

 

 

可以发现,尽管GLIGEN模型只在COCO标注上进行了训练,但它比有监督的基线要好得多,可能因为从头开始训练的基线很难从有限的标注中学习,而GLIGEN模型可以利用预训练模型的大量概念知识。

 

总的来说,这篇论文:

 

1. 提出了一种新的text2img生成方法,赋予了现有text2img扩散模型新的grounding可控性;

 

2. 通过保留预训练的权重和学习逐渐整合新的定位层,该模型实现了开放世界的grounded text2img生成与边界框输入,即综合了训练中未观察到的新的定位概念;

 

3. 该模型在layout2img任务上的zero-shot性能明显优于之前的最先进水平,证明了大型预训练生成模型可以提高下游任务的性能

参考资料:https://the-decoder.com/gligen-gives-you-more-control-over-ai-image-generation/


相关文章
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶中的应用研究####
本文旨在探讨深度学习技术,特别是卷积神经网络(CNN)在自动驾驶车辆图像识别领域的应用与进展。通过分析当前自动驾驶技术面临的挑战,详细介绍了深度学习模型如何提升环境感知能力,重点阐述了数据预处理、网络架构设计、训练策略及优化方法,并展望了未来发展趋势。 ####
459 6
|
机器学习/深度学习 人工智能 达摩院
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。
303 27
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
|
12月前
|
存储 关系型数据库 MySQL
什么是索引下推优化?
索引条件下推优化(ICP)是MySQL 5.6引入的查询优化技术。未使用ICP时,存储引擎通过索引检索数据返回给MySQL Server进行过滤;使用ICP后,MySQL Server将部分判断条件下推给存储引擎,减少不必要的回表查询和数据传输,从而提高查询性能。适用于range、ref等场景,支持InnoDB和MyISAM,但不支持子查询。默认开启,可通过`SET optimizer_switch = 'index_condition_pushdown=off';`关闭。
357 4
什么是索引下推优化?
|
存储 缓存 PHP
阿里云服务器实例、CPU内存、带宽、操作系统选择参考
对于使用阿里云服务器的用户来说,云服务器的选择和使用非常重要,如果实例、内存、CPU、带宽等配置选择错误,可能会影响到自己业务在云服务器上的计算性能及后期运营状况,本文为大家介绍一下阿里云服务器实例、CPU内存、带宽、操作系统的选择注意事项,以供参考。
阿里云服务器实例、CPU内存、带宽、操作系统选择参考
|
机器学习/深度学习 存储 算法
【博士每天一篇文献-算法】Machine Unlearning via Representation Forgetting With Parameter Self-Sharing
这篇论文提出了一种名为"表示遗忘反学习与参数自共享"(RFU-SS)的新方法,通过双目标优化问题的形式,在减少模型准确性降低的同时,有效地从训练好的机器学习模型中移除特定样本的影响。
363 0
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
456 0
|
缓存 NoSQL 中间件
应对数据库不断膨胀的数据:缓存和队列中间件
【6月更文挑战第5天】该文探讨了优化数据库使用以提升应用系统性能的策略。文中建议利用Redis缓存和MQ消息队列作为辅助工具,以进一步优化性能和减少资源消耗。
499 2
应对数据库不断膨胀的数据:缓存和队列中间件
|
机器学习/深度学习 算法 固态存储
深度学习算法工程师面试问题总结| 深度学习目标检测岗位面试总结
本文给大家带来的百面算法工程师是深度学习目标检测岗位面试总结,文章内总结了常见的提问问题,旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中,我们还将介绍一些常见的深度学习目标检测面试问题,并提供参考的回答及其理论基础,以帮助求职者更好地准备面试。通过对这些问题的理解和回答,求职者可以展现出自己的深度学习目标检测领域的专业知识、解决问题的能力以及对实际应用场景的理解。同时,这也是为了帮助求职者更好地应对深度学习目标检测岗位的面试挑战,提升面试的成功率和竞争力。
|
机器学习/深度学习 人工智能 监控
论文介绍:Masked-attention Mask Transformer (Mask2Former)——通用图像分割的新架构
【5月更文挑战第24天】Mask2Former,一种新型的图像分割架构,采用遮蔽注意力机制聚焦局部特征,提升模型收敛速度和性能,在COCO、Cityscapes等数据集上刷新记录。其元架构结合背景特征提取器、像素解码器和Transformer解码器,实现高效训练和性能提升。尽管在处理小对象和泛化能力上仍有局限,但Mask2Former为通用图像分割开辟了新路径。[链接](https://arxiv.org/abs/2112.01527)
1081 5
|
机器学习/深度学习 Python
【Python】已解决TypeError: init() got an unexpected keyword argument ‘threshold’
【Python】已解决TypeError: init() got an unexpected keyword argument ‘threshold’
1044 0