当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换（1）-阿里云开发者社区

当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换（1）

2023-05-25 318

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换

这次，强大的「分割一切」模型——Segment Anything Model，在图像修补任务上碰撞出了火花。

4 月初，Meta 发布了史上首个图像分割基础模型--SAM（Segment Anything Model）[1]。作为分割模型，SAM 的能力强大，操作使用方式也十分友好，比如用户简单地点击来选择对应物体，物体就会立即被分割出来，且分割结果十分精准。截至 4 月 15 号，SAM 的 GitHub 仓库的 Star 数高达 26k。

如何利用好如此强大的「分割一切」模型，并拓展到更加有实际需求的应用场景至关重要。例如，当 SAM 遇上实用的图像修补（Image Inpainting）任务会碰撞出什么样的火花？

来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于 SAM，他们提出「修补一切」（Inpaint Anything，简称 IA）模型。区别于传统图像修补模型，IA 模型无需精细化操作生成掩码，支持了一键点击标记选定对象，IA 即可实现移除一切物体（Remove Anything）、填补一切内容（Fill Anything）、替换一切场景（Replace Anything），涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。

论文链接：http://arxiv.org/abs/2304.06790
代码库链接：https://github.com/geekyutao/Inpaint-Anything

方法介绍

尽管当前图像修补系统取得了重大进展，但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM，研究者首次尝试无需掩码（Mask-Free）图像修复，并构建了「点击再填充」（Clicking and Filling）的图像修补新范式，他们将其称为修补一切（Inpaint Anything）（IA）。IA 背后的核心思想是结合不同模型的优势，以建立一个功能强大且用户友好的图像修复系统。

IA 拥有三个主要功能：(i) 移除一切（Remove Anything）：用户只需点击一下想要移除的物体，IA 将无痕地移除该物体，实现高效「魔法消除」；(ii) 填补一切（Fill Anything）：同时，用户还可以进一步通过文本提示（Text Prompt）告诉 IA 想要在物体内填充什么，IA 随即通过驱动已嵌入的 AIGC（AI-Generated Content）模型（如 Stable Diffusion [2]）生成相应的内容填充物体，实现随心「内容创作」；(iii) 替换一切（Replace Anything）：用户也可以通过点击选择需要保留的物体对象，并用文本提示告诉 IA 想要把物体的背景替换成什么，即可将物体背景替换为指定内容，实现生动「环境转换」。IA 的整体框架如下图所示：

Inpaint Anything（IA）示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型，如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3]，IA 能够平滑移除选定物体（即 Remove Anything）。进一步地，通过向 IA 输入文本提示，用户可以用任何想要的内容填充物体（即 Fill Anything）或者任意替换对象的物体（即 Replace Anything）。

移除一切