MagicQuill:4天斩获千颗 Star,登上Huggingface趋势榜榜首的AI P图神器

简介: MagicQuill通过结合编辑处理器、绘画助手和创意收集器三大功能,解决了图片精准、高效编辑的难题,用户可以通过三种简单的魔法画笔(添加、删除和上色)来编辑图片。

还在为 P 图烦恼,懊恼自己这不争气的手怎么就 P 不出来好看的图片?

image.png

最近,蚂蚁技术研究院开源了一个交互式的 AI 图像编辑工具:MagicQuill ,可以快速、简单的实现智能化、精细化的图像编辑。即便是 PS 小白,也能轻松上手。用画笔涂抹加一句提示词,瞬间完成复杂繁琐的图像编辑功能。该项目在 Github 上 短短 4 天就斩获千颗 Star🌟!

image.png

更是霸榜 Hugging Face应用排行榜第一!

image.png

我们先来看看效果~

01.MagicQuill是什么

MagicQuill 是一个交互式的 AI 图片编辑工具,通过结合“编辑处理器” “绘画助手”和“创意收集器”三大功能,成功解决了图片的精准、高效编辑的难题。用户只需要用三种简单直观的魔法画笔就能轻松编辑图片:添加、删除和上色。系统通过多模态大语言模型 (MLLM) 动态预测用户的操作意图,并提供相关的编辑建议。

体验地址:

https://modelscope.cn/studios/ant-research/MagicQuill_demo

模型链接:

https://modelscope.cn/models/ant-research/MagicQuill-models

代码地址:

https://github.com/magic-quill/MagicQuill

02.核心组成

image.png

编辑处理器(Editing Processor):系统的核心处理模块,主要负责确保高质量、可控的编辑生成,从而准确反映用户的编辑意图。它实现了两种基于笔刷的引导机制:用于结构性修改的涂鸦引导和用于修改颜色属性的颜色引导。该模块的技术设计受到ControlNet和BrushNet的启发,通过特殊的控制架构确保能够精确遵循用户引导的同时保持未修改区域不变,从而实现精确的图像编辑效果。

绘画助手(Painting Assistor):其设计目标是预测和解释用户的编辑意图,有效减少用户在编辑过程中需要重复输入文本提示的繁琐步骤。该模块运用多模态大语言模型(MLLM)来解释用户的笔刷操作,并能够基于图像上下文自动预测相应的提示。通过引入创新的"你画我猜"任务,并利用模拟真实编辑场景的数据集进行微调,绘画助手实现了连续的编辑工作流,让用户无需手动输入提示即可进行持续的编辑操作。

创意收集器(Idea Collector):专注于提供直观且易用的操作界面,它的设计兼容多个平台,包括Gradio和ComfyUI等。用户可以通过这个界面使用不同的笔刷进行绘制,操作各种笔画,并实现连续的编辑过程。创意收集器的设计理念是让用户能够轻松自如地实现各种编辑操作,为整个系统提供一个用户友好的交互入口,显著提升图像编辑的效率和用户体验。

03.本地安装使用

下载代码库

git clone --recursive https://github.com/magic-quill/MagicQuill.git
cd MagicQuill

下载需要用到的模型权重文件

modelscope download --model=ant-research/MagicQuill-models --local_dir ./MagicQuill-models

创建运行环境

conda create -n MagicQuill python=3.10 -y
conda activate MagicQuill

安装交互界面文件

pip install gradio_magicquill-0.0.1-py3-none-any.wh

安装 LLAVA 环境

cp -f pyproject.toml MagicQuill/LLaVA/
pip install -e MagicQuill/LLaVA/

安装环境依赖

pip install -r requirements.txt

运行

CUDA_VISIBLE_DEVICES=0 python gradio_run.py

04.如何使用

在 MagicQuill 中主要提供了三种“魔法画笔”:

添加画笔

可以根据画笔输入的形状、位置,生成相应的元素。比如在河边简单画一只鹿的形状,一只栩栩如生的小鹿就活了过来。

image.png

又或者是在美女的脖子上简单画个项链的形状,就可以直接生成一张美女佩戴项链的图片。

image.png

减法画笔

可以根据画笔涂抹的位置和形状,减去相应位置的内容或重新绘制区域。这不是妥妥的 P 图神器呀~

“有两根尾鳍的海豚?我们赶紧给它‘治疗’一下,去掉一个!”

640 (2).gif

“我们把骷髅先生的帽子摘下来,再给他一杯冰激凌,让他凉快一下吧。”

640 (3).gif

彩色画笔

可以根据画笔的染色,为图片进行上色,或者修改图片的颜色。

比如给美女的满头金色增加一缕蓝色和红色的头发。

640 (4).gif

也可以让蛋糕上粉色的花变成蓝色。

640 (5).gif

当然,你也可以将添加画笔和删除画笔组合使用。比如为这位帅哥换一条新的领带!

640 (6).gif

如果你画完之后发现它猜出的并不是你想要的内容,你也可以直接告诉它你到底想画什么~

比如,我想画的是一条路,而不是画藤蔓。

640 (7).gif

如果您是专业人士,也可以在下方的参数调整区域调整自己需要的参数。

image.png 640 (8).gif

Base Model 支持不同的基础模型,有适合生成真实风格的:

SD1.5/realisticVisionV60B1_v51VAE.safetensors

https://modelscope.cn/models/MusePublic/56_ckpt_SD_1_5

适合幻想风格的:

SD1.5/DreamShaper.safetensors

https://modelscope.cn/models/MusePublic/54_ckpt_SD_1_5

适合肖像风格的:

SD1.5/majicMIX_realistic

https://modelscope.cn/models/MusePublic/51_ckpt_SD_1_5

适合动漫风格的:

SD1.5/MeinaMix.safetensors和SD1.5/ghostmix_v20Bakedvae.safetensors

https://modelscope.cn/models/MusePublic/63_ckpt_SD_1_5

https://modelscope.cn/models/MusePublic/58_ckpt_SD_1_5

也可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小、Edge Strength 边缘强化、Color Strength 颜色强度等等。

05.效果展示

640 (8).gif

640 (9).gif

640 (10).gif

640 (11).gif

640 (12).gif

06. 关于开发团队

image.png

MagicQuill 开发团队来自香港科技大学、蚂蚁集团、浙江大学、和香港大学等机构。其中 Zichen Liu、Yue Yu、Ka Leong Cheng、Wen Wang 四位作者目前都在蚂蚁技术研究院交互智能实验室实习。

作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室聚焦视觉和 NLP 基础模型研究,开发通用人工智能算法架构,包括内容生成、多模态理解、数字人技术等人机交互关键技术。

相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
元象XVERSE发布 中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
|
2月前
|
编解码 人工智能 自然语言处理
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。一起看看该模型的一些表现吧!
|
4月前
|
机器学习/深度学习 人工智能 人机交互
ICML 2024:AI也会刷抖音!清华领衔发布短视频全模态理解新模型
【8月更文挑战第20天】SALMONN是由清华大学在ICML 2024发表的一种开创性的多模态模型,专为短视频全模态理解设计。它集成了预训练文本大模型与语音、音频编码器,能直接处理多样音频输入,在自动语音识别、翻译、情绪识别等任务中表现出色。SALMONN展现了令人兴奋的新能力,如翻译未训练语言和基于语音的问答。通过少样本激活微调,可进一步发掘其跨模态潜能。尽管如此,模型的计算成本和泛化能力仍是待克服的挑战。SALMONN标志着AI在具备通用听觉理解方面迈出重要一步。[论文链接: https://arxiv.org/abs/2310.13289]
75 3
|
7月前
|
人工智能 开发者
Kimi Chat:国内AI新星,20万字超长文本处理的突破者
【2月更文挑战第12天】Kimi Chat:国内AI新星,20万字超长文本处理的突破者
2801 2
Kimi Chat:国内AI新星,20万字超长文本处理的突破者
|
自然语言处理 测试技术 编译器
社区供稿 | 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0 再创榜单新高,魔搭开源可体验!
使用自然语言生成高质量的代码是大模型落地中的高频需求。近日,IDEA研究院封神榜团队正式开源最新的代码大模型Ziya-Coding-34B-v1.0,我们在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。
|
机器学习/深度学习 人工智能 算法
WAVE SUMMIT 定档8月16日,或将曝百度飞桨、文心大模型最新进展
2023年全球AI浪潮迭起,大语言模型热度空前,生成式人工智能为千行百业高质量发展带来更多想象空间。作为前沿科技风向标、汇聚全球开发者的顶级盛会,WAVE SUMMIT 2023深度学习开发者峰会正式定档8月16日,在北京望京凯悦酒店召开。本次峰会聚焦深度学习及大模型技术的发展与未来,将带来行业前瞻洞察和一系列全新重磅发布。
130 0
WAVE SUMMIT 定档8月16日,或将曝百度飞桨、文心大模型最新进展
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
907 0
|
机器学习/深度学习 人工智能 算法
8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2(3)
8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2
330 0
|
人工智能 自然语言处理 搜索推荐
8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2(1)
8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2
299 0
|
存储 机器学习/深度学习 人工智能
8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2(2)
8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2
230 0