BrushEdit:腾讯和北京大学联合推出的图像编辑框架,通过自然语言指令实现对图像的编辑和修复

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: BrushEdit是由腾讯、北京大学等机构联合推出的先进图像编辑框架,结合多模态大型语言模型和双分支图像修复模型,支持基于指令引导的图像编辑和修复。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持自然语言指令引导的图像编辑和修复,提供多轮交互式编辑功能。
  2. 技术:结合多模态大型语言模型和双分支图像修复模型,实现精细的图像编辑。
  3. 应用:适用于内容创作、媒体娱乐、广告营销等多个领域。

正文(附运行示例)

BrushEdit 是什么

公众号: 蚝油菜花 - BrushEdit

BrushEdit是由腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。该框架结合了多模态大型语言模型(MLLMs)和双分支图像修复模型,支持用户通过自然语言指令进行自由形式的、多轮交互式的编辑操作。BrushEdit能够处理添加、移除物体等大幅度修改,同时保持背景的连贯性和编辑效果的自然性,显著提升图像编辑的灵活性和用户体验。

BrushEdit的核心在于其多模态大型语言模型和双分支图像修复模型的结合,使得用户可以通过简单的指令实现复杂的图像编辑任务。

BrushEdit 的主要功能

  • 指令引导的图像编辑:用户可以通过自然语言指令指导图像编辑任务,如添加、删除或修改图像中的物体。
  • 多轮交互式编辑:支持用户在编辑过程中进行多轮交互,逐步调整和完善编辑结果。
  • 自由形式掩码编辑:用户可以自由绘制掩码指定编辑区域,无需精确的分割工具。
  • 背景和前景处理:框架能够区分编辑区域(前景)和非编辑区域(背景),确保编辑操作不影响图像的非目标部分。
  • 图像修复:自动填充和修复图像中的缺失或指定区域,如去除不需要的物体或填补空洞。

BrushEdit 的技术原理

  • 多模态大型语言模型(MLLMs):通过预训练的MLLMs解析用户的自由形式编辑指令,识别编辑类型和目标对象。
  • 双分支图像修复模型:一个分支负责处理掩码区域的图像生成,另一个分支处理未掩码区域的背景信息。
  • 代理协作框架:基于代理(代理指导者和代理指挥者)之间的协作,实现编辑类别分类、主要对象识别、掩码获取和编辑区域修复。
  • 特征融合:将用户指令和掩码信息融合到图像修复模型中,指导模型在掩码区域内生成与指令相符的内容。
  • 零卷积层和特征插入:通过零卷积层将冻结的预训练模型与可训练的BrushEdit模型连接,逐层集成特征实现精细的控制。
  • 混合微调策略:结合随机掩码和分割掩码的微调策略,让模型处理多种掩码任务,不受特定掩码类型限制。

如何运行 BrushEdit

环境要求

BrushEdit已经在CUDA118、Pytorch 2.0.1和Python 3.10.6环境下实现和测试。

首先,克隆仓库:

git clone https://github.com/TencentARC/BrushEdit.git

推荐使用conda创建虚拟环境,并按照官方说明安装pytorch

conda create -n brushedit python=3.10.6 -y
conda activate brushedit
python -m pip install --upgrade pip
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

然后,安装diffusers

pip install -e .

最后,安装所需的包:

pip install -r app/requirements.txt

下载检查点

使用以下命令下载BrushEdit的检查点:

sh app/down_load_brushedit.sh

运行演示

使用以下脚本运行演示:

sh app/run_app.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
12天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
123 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
27天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
87 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
2月前
|
人工智能 自然语言处理 PyTorch
AutoVFX:自然语言驱动的视频特效编辑框架
AutoVFX是一个先进的自然语言驱动的视频特效编辑框架,由伊利诺伊大学香槟分校的研究团队开发。该框架能够根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频,集成了神经场景建模、基于大型语言模型(LLM)的代码生成和物理模拟技术。本文详细介绍了AutoVFX的主要功能、技术原理以及如何运行该框架。
57 1
AutoVFX:自然语言驱动的视频特效编辑框架
|
4月前
|
机器学习/深度学习 自然语言处理 计算机视觉
用于图像和用于自然语言的神经网络区别
主要区别总结 数据结构:图像数据是二维像素矩阵,具有空间结构;文本数据是一维序列,具有时间结构。 网络架构:图像处理常用CNN,注重局部特征提取;自然语言处理常用RNN/LSTM/Transformer,注重序列和全局依赖。 操作单元:图像处理中的卷积核在空间上操作;自然语言处理中的注意力机制在序列上操作。
32 2
|
6月前
|
存储 分布式计算 MaxCompute
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
|
5月前
|
自然语言处理 计算机视觉 Python
VisProg解析:根据自然语言指令解决复杂视觉任务
VisProg是一个神经符号系统,能够根据自然语言指令生成并执行Python程序来解决复杂的视觉任务,提供可解释的解决方案。
53 0
|
6月前
|
分布式计算 自然语言处理 MaxCompute
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
|
8月前
|
自然语言处理 搜索推荐
让玩家全程掌控游戏:自然语言指令驱动的游戏引擎到来了
【4月更文挑战第28天】 Instruction-Driven Game Engine (IDGE) 技术引领游戏产业革命,允许玩家使用自然语言指令创建和修改游戏规则。由香港大学研发的IDGE简化了游戏开发,降低门槛,使非专业人士也能设计游戏。尽管需精确规则描述与大量训练数据,但IDGE潜力巨大,可促进游戏创新与个性化体验。[查看论文: https://arxiv.org/abs/2404.00276]
81 2
|
人工智能 自然语言处理 机器人
Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人
Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人
Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人
|
8月前
|
自然语言处理
数字与图像/自然语言之间的相互映射
数字与图像/自然语言之间的相互映射

热门文章

最新文章