还在为 P 图烦恼,懊恼自己这不争气的手怎么就 P 不出来好看的图片?
最近,蚂蚁技术研究院开源了一个交互式的 AI 图像编辑工具:MagicQuill ,可以快速、简单的实现智能化、精细化的图像编辑。即便是 PS 小白,也能轻松上手。用画笔涂抹加一句提示词,瞬间完成复杂繁琐的图像编辑功能。该项目在 Github 上 短短 4 天就斩获千颗 Star🌟!
更是霸榜 Hugging Face应用排行榜第一!
我们先来看看效果~
01.MagicQuill是什么
MagicQuill 是一个交互式的 AI 图片编辑工具,通过结合“编辑处理器” “绘画助手”和“创意收集器”三大功能,成功解决了图片的精准、高效编辑的难题。用户只需要用三种简单直观的魔法画笔就能轻松编辑图片:添加、删除和上色。系统通过多模态大语言模型 (MLLM) 动态预测用户的操作意图,并提供相关的编辑建议。
体验地址:
https://modelscope.cn/studios/ant-research/MagicQuill_demo
模型链接:
https://modelscope.cn/models/ant-research/MagicQuill-models
代码地址:
https://github.com/magic-quill/MagicQuill
02.核心组成
编辑处理器(Editing Processor):系统的核心处理模块,主要负责确保高质量、可控的编辑生成,从而准确反映用户的编辑意图。它实现了两种基于笔刷的引导机制:用于结构性修改的涂鸦引导和用于修改颜色属性的颜色引导。该模块的技术设计受到ControlNet和BrushNet的启发,通过特殊的控制架构确保能够精确遵循用户引导的同时保持未修改区域不变,从而实现精确的图像编辑效果。
绘画助手(Painting Assistor):其设计目标是预测和解释用户的编辑意图,有效减少用户在编辑过程中需要重复输入文本提示的繁琐步骤。该模块运用多模态大语言模型(MLLM)来解释用户的笔刷操作,并能够基于图像上下文自动预测相应的提示。通过引入创新的"你画我猜"任务,并利用模拟真实编辑场景的数据集进行微调,绘画助手实现了连续的编辑工作流,让用户无需手动输入提示即可进行持续的编辑操作。
创意收集器(Idea Collector):专注于提供直观且易用的操作界面,它的设计兼容多个平台,包括Gradio和ComfyUI等。用户可以通过这个界面使用不同的笔刷进行绘制,操作各种笔画,并实现连续的编辑过程。创意收集器的设计理念是让用户能够轻松自如地实现各种编辑操作,为整个系统提供一个用户友好的交互入口,显著提升图像编辑的效率和用户体验。
03.本地安装使用
下载代码库
git clone --recursive https://github.com/magic-quill/MagicQuill.git cd MagicQuill
下载需要用到的模型权重文件
modelscope download --model=ant-research/MagicQuill-models --local_dir ./MagicQuill-models
创建运行环境
conda create -n MagicQuill python=3.10 -y conda activate MagicQuill
安装交互界面文件
pip install gradio_magicquill-0.0.1-py3-none-any.wh
安装 LLAVA 环境
cp -f pyproject.toml MagicQuill/LLaVA/ pip install -e MagicQuill/LLaVA/
安装环境依赖
pip install -r requirements.txt
运行
CUDA_VISIBLE_DEVICES=0 python gradio_run.py
04.如何使用
在 MagicQuill 中主要提供了三种“魔法画笔”:
添加画笔
可以根据画笔输入的形状、位置,生成相应的元素。比如在河边简单画一只鹿的形状,一只栩栩如生的小鹿就活了过来。
又或者是在美女的脖子上简单画个项链的形状,就可以直接生成一张美女佩戴项链的图片。
减法画笔
可以根据画笔涂抹的位置和形状,减去相应位置的内容或重新绘制区域。这不是妥妥的 P 图神器呀~
“有两根尾鳍的海豚?我们赶紧给它‘治疗’一下,去掉一个!”
“我们把骷髅先生的帽子摘下来,再给他一杯冰激凌,让他凉快一下吧。”
彩色画笔
可以根据画笔的染色,为图片进行上色,或者修改图片的颜色。
比如给美女的满头金色增加一缕蓝色和红色的头发。
也可以让蛋糕上粉色的花变成蓝色。
当然,你也可以将添加画笔和删除画笔组合使用。比如为这位帅哥换一条新的领带!
如果你画完之后发现它猜出的并不是你想要的内容,你也可以直接告诉它你到底想画什么~
比如,我想画的是一条路,而不是画藤蔓。
如果您是专业人士,也可以在下方的参数调整区域调整自己需要的参数。
Base Model 支持不同的基础模型,有适合生成真实风格的:
SD1.5/realisticVisionV60B1_v51VAE.safetensors
(https://modelscope.cn/models/MusePublic/56_ckpt_SD_1_5)
适合幻想风格的:
SD1.5/DreamShaper.safetensors
(https://modelscope.cn/models/MusePublic/54_ckpt_SD_1_5)
适合肖像风格的:
SD1.5/majicMIX_realistic
(https://modelscope.cn/models/MusePublic/51_ckpt_SD_1_5)
适合动漫风格的:
SD1.5/MeinaMix.safetensors和SD1.5/ghostmix_v20Bakedvae.safetensors
(https://modelscope.cn/models/MusePublic/63_ckpt_SD_1_5)
(https://modelscope.cn/models/MusePublic/58_ckpt_SD_1_5)
也可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小、Edge Strength 边缘强化、Color Strength 颜色强度等等。
05.效果展示
06. 关于开发团队
MagicQuill 开发团队来自香港科技大学、蚂蚁集团、浙江大学、和香港大学等机构。其中 Zichen Liu、Yue Yu、Ka Leong Cheng、Wen Wang 四位作者目前都在蚂蚁技术研究院交互智能实验室实习。
作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室聚焦视觉和 NLP 基础模型研究,开发通用人工智能算法架构,包括内容生成、多模态理解、数字人技术等人机交互关键技术。