无需微调!扩散模型新突破:Attentive Eraser高效稳定移除目标物体

简介: 最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

为了解决这些问题,浙江工商大学和阿里巴巴研究团队联合提出了一种基于扩散模型且无需微调的方法——Attentive Eraser,以增强预训练扩散模型目标移除的能力,从而实现稳定有效的目标移除。实验结果表明,该方法在多种预训练扩散模型中均表现出优异的目标移除能力,甚至优于基于训练的方法,且无需微调,具有很强的可扩展性。

该研究论文已被人工智能顶会AAAI2025录用并选为OralPresentation。

论文标题:

Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance

论文链接:

https://arxiv.org/pdf/2412.12974

Github地址:

https://github.com/Anonym0u3/AttentiveEraser

体验链接:

https://www.modelscope.cn/studios/Anonymou3/AttentiveEraser

Diffusers Pipeline:https://github.com/huggingface/diffusers/tree/main/examples/community#stable-diffusion-xl-attentive-eraser-pipeline

01.背景

目前,扩散模型的广泛应用使得生成与真实照片质量相媲美的高质量图像成为可能,并能够根据用户的需求提供逼真的视觉呈现。这引发了一个自然的问题:这些模型的图像生成能力是否可以被用于从图像中移除特定目标。这个被称为“目标移除”的任务是图像重绘(Image Inpainting)的一种特殊形式,并需要解决两个关键问题。首先,用户指定的目标必须能够被成功且有效地从图像中移除。其次,被移除的区域需要填充内容,这些内容必须真实、合理,并与图像整体保持一致性以确保视觉上的连贯性。

近年来扩散模型中最具代表性的开源预训练模型是Stable Diffusion(SD),其作为一种隐变量扩散模型在多种图像生成任务中表现优异。然而,直接将其应用在重绘pipeline上进行目标移除时效果却不尽人意,往往会出现伪影导致目标移除不成功,如图 1(SD w/o SARG)所示:

图1 Stable Diffusion模型应用SARG前后目标移除效果对比图

为了将SD应用于目标移除任务,SD-inpainting通过在模型中引入掩码作为附加条件并进行微调,构建成了一个端到端的图像重绘模型。然而,即使付出了大量资源成本,SD-inpainting在目标移除任务中的性能依然不够稳定,经常无法完全移除目标,还是会生成随机伪影。除了基于模型微调的方法外,还有一种通过提示工程(prompt engineering)引导扩散模型完成目标移除的技术。尽管这类方法在某些场景下可以取得令人满意的结果,但其显著缺点在于,需要投入大量精力进行提示构建,同时难以与前景目标区域实现精确交互。此外,这类方法同样需要耗费大量资源进行模型微调,进一步限制了其实用性。

为了解决上述问题,本文提出了一种基于扩散模型且无需微调的目标移除方法,具体贡献如下:

  1. 本文提出了一种无需微调的方法——Attentive Eraser,旨在激发预训练扩散模型的目标移除潜能。该方法由两个关键组成部分构成:
  2. 注意力激活和抑制(Attention Activation and Suppression,AAS),这是一种专门设计用于修改预训练扩散模型中自注意力机制的方法,可在生成图像时增强模型对背景的注意力,同时降低对前景目标物体的注意力。同时针对生成过程中自注意力本身带来的对相似物体的高依赖性问题,本文提出了相似性抑制(Similarity Suppression,SS),有效地解决了该问题。
  3. 自注意力重定向引导(Self-Attention Redirection Guidance,SARG),这是一种新颖的逆向扩散采样过程引导方法,利用所提出的AAS将采样过程引导到目标移除的方向,进一步提升了目标移除的效果。
  4. 通过一系列实验和用户偏好研究,本文验证了所提出方法的有效性、鲁棒性和可扩展性。实验结果表明,本文的方法在目标移除的质量和稳定性方面均超越了现有的最先进方法。

02.AttentiveEraser核心创新

本文提出的Attentive Eraser免微调目标移除方法的总体框架图如图 2所示,其中有两个主要部分:

  1. AAS,这是一种专为目标移除任务设计的自注意力机制修改操作,针对目标移除任务中固有的挑战,AAS通过对自注意力机制进行精细调整,使得模型在生成前景目标区域时能够更加关注背景内容,而非前景目标,进而在生成结果图中消除目标的外观信息。此外,SS可抑制由于自注意力的固有特性而可能导致的对相似物体的过度关注;
  2. SARG,这是一种应用于逆向扩散采样过程的引导方法,它利用通过AAS重定向的自注意力来引导采样过程指向目标移除的方向。在这种引导下,扩散模型能够更好地消除掩码区域内的前景目标,并生成与背景自然融洽的图像内容。

图2 Attentive Eraser的总体框架图

创新一:注意力抑制与激活(AAS)

动机分析

图3 去噪网络不同层在所有时间步上的平均自注意力图的可视化图

图 3中,在输入图像经过DDIM inversion后,利用主成分分析和聚类技术,对逆向扩散去噪过程中去噪网络的不同层在所有时间步上的平均自注意力图进行了可视化。通过这些可视化结果,可以观察到自注意力图显示出类似于图像各个组成部分的语义布局。这种布局清晰地展示了前景物体和背景在生成过程中所对应的自注意力的显著差异,表明它们在模型中的处理方式存在明确的区分。

这种语义布局为目标移除任务提供了重要的启示,为了在生成过程中有效地去除前景目标,一个直观的方法是在生成过程中将前景物体的自注意力逐渐“融合”到背景中,使其与背景区域的注意力更加趋同。换句话说,在生成过程中与前景目标相关的区域应更关注背景区域,同时减少对自身的关注。前景目标的自注意力逐渐向背景转移有助于消除前景物体,使其自然地消隐于背景之中。

此外,考虑到目标移除任务的特殊性,前景目标是处理的核心,背景区域应在生成过程中保持固定不变,且不受前景区域变化的影响。因此,为了实现更自然的生成效果,背景区域对前景区域的关注度也应适当地降低,从而避免生成过程中背景被不必要地干扰。这一策略确保了生成结果与背景的自然融合,使生成图像显得更加和谐、真实。

专为目标移除设计的自注意力机制修改方法

结合上述分析,本文提出了一种针对目标移除任务设计的简单而有效的方法——AAS,如图 2(a)所示,AAS方法的核心在于通过调整自注意力机制,灵活控制前景目标区域与背景区域之间的关系,从而实现更为自然的目标移除效果。

注意力激活的目的是通过增加前景目标区域生成内容对背景区域的注意力,即增加,从而确保前景目标被移除后,生成的内容能够与背景自然融合。这一过程的关键在于增强前景区域生成内容对背景的关注度,使得前景区域在生成过程中更多地参考背景的特征信息,进而生成与背景风格一致的图像内容。这种增强能够有效地避免前景移除后出现与背景不协调的情况,确保生成图像的整体连贯性和视觉一致性。

与此相反,注意力抑制是指抑制前景目标区域关于其外观及其对背景影响的信息,即减少和,达到抹除前景目标的效果。降低的目的是抑制前景区域对自身外观信息的关注,逐步抹除前景目标的原始语义信息。这意味着在逆向扩散去噪过程中,前景目标的特征信息将被逐步削弱直至完全消失而背景区域的生成过程则保持不变,以确保背景的完整性。此外,降低的作用在于减少背景区域对前景区域的依赖,避免背景区域在前景移除过程中受到不必要的影响。

相似性抑制

尽管上述理论在目标移除任务中展现了显著的效果,但其仍存在一个重要的局限性。具体而言,当背景中包含与前景目标相似的内容时,由于自注意力机制的固有特性,在生成过程中这些相似部分的注意力可能会高于其他区域。这种情况会导致扩散模型在去除前景目标时,误将背景中相似的部分保留,从而无法彻底去除目标(见图 2(a)右侧的一个例子)。这一问题的存在表明,单纯依靠上述理论可能不足以应对复杂场景中具有相似特征的前景和背景目标的区分与处理。

因此,为了减少对相似目标的关注并将其分散到其他区域,本文提出了一种较为直接且有效的扩展策略引入到AAS中来解决上述问题:通过简单地引入一个小于1的相似性抑制系数来降低相似性矩阵方差。本文将该方法称为相似性抑制(SS)。基于SoftMax函数的权重计算机制,减少方差可以在一定程度上削弱生成过程过度关注高相似度区域的倾向,同时增加对背景其他区域的注意力,由此来抑制生成过程中可能出现的相似物体,从而减少目标去除不彻底的情况。

创新二:自注意力重定向引导(SARG)

为了进一步提高目标去除能力以及生成图像的整体质量,本文受Ahn等人提出的PAG(PAG:Ahn D, Cho H, Min J, et al. Self-rectifying diffusion sampling with perturbed-attention guidance[C]. European Conference on Computer Vision. Springer, Cham, 2025: 1-17.)启发,将经过AAS处理后的去噪网络看作是噪声预测过程中的一种扰动形式,通过这种扰动来引导采样过程朝向理想方向。因此,修正后的扩散模型的预测噪声可以定义如下:

这种引导过程的优势在于,通过调整自注意力机制,SARG能够在生成过程中不断优化生成策略,使模型更加灵活地适应不同场景下的目标移除需求。同时,通过优化生成过程的各个时间步,SARG还提高了最终生成图像的质量,通过合理地控制生成过程中的注意力分配,SARG确保了最终生成图像与背景之间的自然融合,减少了它们之间的突兀感,从而提高了图像的视觉一致性和自然度,确保了高质量的目标移除效果。

03.AttentiveEraser的稳定目标擦除能力及高拓展性

对比实验的定量和定性结果

表 1 对比实验定量结果表

从定量分析的结果来看,尽管在全局质量指标FID和LPIPS上,本文的方法表现处于平均水平,但这两个指标并不能充分反映目标去除的效果。进一步分析Local-FID指标,该指标评估生成区域的视觉质量与背景的真实分布的吻合程度,可以看到我们的方法在局部移除方面展现出色的表现,显著优于其他方法,说明在局部区域细节上我们方法生成的内容与真实图像分布更接近。同时,CLIP consensus指标通过计算多次生成结果的标准偏差,揭示了方法在不同随机种子下生成结果的一致性。

从结果可以明显看到其他基于扩散模型的方法的标准偏差较大,说明了它们应用在目标移除任务时的不稳定性,而我们的结果展现了显著更低的标准偏差,说明我们方法的稳定性显著优于对比方法,更倾向于生成一致性高的图像。而CLIP Score指标直接反映目标是否被有效去除且背景是否被合理重建,实验结果表明我们的方法能够高效地去除目标,并在重绘前景区域时与背景高度一致。

在CLIP Score指标上,我们的方法与当前领先的基于快速傅立叶卷积的重绘模型LAMA达到了相当的竞争水平,并在特定场景中表现出更强的背景适配能力。

图4 对比实验定性结果图

图5 目标移除稳定性实验结果对比图

对比实验的定性结果如图 4所示,其中输入图像中的掩码以红色高亮显示,本文的方法以粗体标出。从图中可以观察到本文的方法与其他方法之间的显著差异。LAMA由于缺乏生成能力,虽然能成功去除目标,但生成的内容显得模糊且不清晰。相比之下,其他基于扩散模型的方法都存在一个普遍的问题,即目标移除的不稳定性,这种不稳定性往往导致随机伪影的出现,无法生成与背景连贯一致的内容。

为了进一步证实这一问题,本文进行了目标移除稳定性实验,结果如图 5所示。图中展示了每种方法在使用三种不同随机种子下的目标移除结果。可以清楚地看到,本文的方法在各个版本的SD模型中都能实现稳定的目标移除,生成的内容一致且连贯。而其他方法则难以保持这种稳定性,目标移除效果因随机性而产生较大的波动,难以实现与背景一致的生成效果。

用户偏好研究和GPT-4o评估

表2 用户偏好研究和GPT-4o评估结果表

由于缺乏针对目标移除任务的有效指标,上述指标可能不足以证明本文方法的优越性。因此,本文进一步进行了用户偏好研究(User Study)以验证本文方法的实际效果。表 2列出了用户对各种方法的偏好百分比,结果表明本文的方法比其他方法更受用户青睐。这一发现与对比试验的结果一致,进一步验证了本文方法在目标移除任务中的有效性和优越性,突出表明该方法在实际应用中的表现优于其他现有方法。

此外为了进一步表明本文提出方法的优越性,我们还利用 GPT-4o对本文的方法和用户偏好研究中排名第二方法LAMA之间的目标移除性能进行了进一步评估。在该对比实验中,我们要求GPT-4o根据设计好的公平合理的文本提示选择目标移除效果最佳的图像。具体的文本提示如下:“你是一个生成图像评估专家。现有两张图和对应的掩码,请从以下方面进行评估:1.生成图像是否有效移除了掩码内目标且在掩码区域内生成和背景一致的内容, 2.掩码内目标的生成内容的真实感。根据以上标准,请告诉我哪张图片更好。”最终,计算了本文的方法和LAMA被选择的频率,以此衡量各自的目标移除性能。评估结果在表 2中,结果也表明本文的方法明显优于LAMA,表现出卓越的性能。通过这些实验,本文的方法不仅在生成图像的整体质量上优于LAMA,还在目标移除的准确性和生成内容的真实感方面展现了显著的优势。

鲁棒性和可拓展性分析

图6 Attentive Eraser对输入掩码的鲁棒性实验结果图

图7 在solarsync模型上应用Attentive Eraser去除卡通图像目标的结果图

由于Attentive Eraser是一个基于掩码的方法,因此我们在实验中进一步证明了其对输入掩码的鲁棒性,并展示了其在其他预训练扩散模型上的可拓展性。

如图 6所示,我们通过三种不同精细度的掩码类型来评估该方法的鲁棒性,按从细致到粗糙可以将掩码分为:实例分割掩码、分割边界框掩码和手绘掩码。可以看出,即使使用较为粗糙的手绘掩码,我们的方法依然能够有效去除目标并生成合理的前景内容。这表明,Attentive Eraser的性能并不依赖于掩码的精细程度,具有极高的鲁棒性。同时,这种鲁棒性也为用户提供了更多的灵活性和便捷性,无论是使用精细的自动生成的分割掩码,还是手工绘制的粗略掩码,用户都能够获得理想的目标移除效果。

此外,如图 7所示,我们的方法不仅适用于生成自然图像的预训练扩散模型(例如SD1.5、SD2.1等),还可以扩展到生成动漫图像的模型,如Civital 平台上的solarsync模型,体现出了Attentive Eraser在不同预训练扩散模型和架构上的可拓展性和广泛适用性,无论是用于自然图像还是动漫图像的目标移除任务,均能发挥出色的效果。

通过这些实验,我们充分展示了Attentive Eraser的鲁棒性和可拓展性,为其在实际应用中的广泛应用提供了坚实的理论与实验支持。

03.Demo演示

Demo已发布在魔搭社区创空间:https://www.modelscope.cn/studios/Anonymou3/AttentiveEraser

点击链接即可跳转体验~

AttentiveEraser

目录
相关文章
|
NoSQL Linux Redis
Linux centos8安装redis
Linux centos8安装redis
1063 0
|
9月前
|
人工智能 前端开发 API
人人都是应用开发者:AI时代的全栈产品经理实践
本文试图最短路径、最轻模式来做一个应用,实现一个需求!仅需三大步+9小步,以下为手把手教学流程。
621 10
|
8月前
|
人工智能 计算机视觉
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
707 20
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
|
11月前
|
人工智能 计算机视觉 开发者
SmartEraser:中科大推出图像对象移除技术,轻松移除照片中的不想要元素,保留完美瞬间
SmartEraser 是由中科大与微软亚洲研究院联合开发的图像编辑技术,能够精准移除图像中的指定对象,同时保留周围环境的细节和结构,适用于复杂场景的图像处理。
308 8
SmartEraser:中科大推出图像对象移除技术,轻松移除照片中的不想要元素,保留完美瞬间
|
算法 PyTorch 算法框架/工具
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
1479 0
|
8月前
|
人工智能 编解码 自然语言处理
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
DreamActor-M1是字节跳动研发的AI图像动画框架,通过混合引导机制实现高保真人物动画生成,支持多语言语音驱动和形状自适应功能。
803 40
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
|
9月前
|
存储 人工智能 API
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自动化,支持角色分配、任务分解和记忆功能,适用于代码生成、文档撰写、数据分析等多种场景。
1836 13
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
|
9月前
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
1118 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!