AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用

简介: AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用


通过「添加额外条件」来控制扩散模型,斯坦福大学最新的一项研究让图生图效果更上了一层楼。

随着大型文本 - 图像模型的出现,生成一幅吸引人的图像已经变得非常简单,用户需要做的就是动动手指输入简单的 prompt 就可以。通过一系列操作得到图像后,我们不免又会产生这样几个问题:基于 prompt 生成的图像能够满足我们的要求吗?我们应该构建怎样的架构来处理用户提出的各种要求?在特定任务中,大型模型是否还能保持从数十亿张图像中获得的优势和能力?

为了回答这些问题,来自斯坦福的研究者对各种图像处理应用进行了大量调查,并得出以下三个发现:

首先,在特定领域中可用数据实际比训练通用模型的数据要少,这主要表现在,例如在特定问题上(例如姿态理解等)最大的数据集通常低于 100k,比大规模、多模态文本图像数据集 LAION 5B 少了 5 × 10^4 数量级。这就要求神经网络鲁棒性要好,以避免模型过度拟合,并在针对特定问题时具有良好的泛化性。

其次,当使用数据驱动处理图像任务时,大型计算集群并不总是可用的。这时快速训练方法就变得很重要,这种方法在可接受的时间和内存空间内能够针对特定任务对大模型进行优化。更进一步,在后续的处理过程中可能还需要微调、迁移学习等操作。

最后,在图像处理过程中遇到的各种问题会有不同形式的定义方式。在解决这些问题时,虽然图像扩散算法可以以「程序化(procedural)」方式进行调节,例如,约束去噪过程、编辑多头注意力激活等,但这些手工制定的规则基本上是由人类指令规定的,考虑到一些特定的任务,如深度 - 图像、姿态 - 人等,这些问题本质上需要将原始输入解释为对象级或场景级的理解,这使得手工制作的程序方法不太可行。因此,想要在多个任务中给出解决方案,端到端学习是必不可少的。

基于上述发现,本文提出了一种端到端的神经网络架构 ControlNet,该架构可以通过添加额外条件来控制扩散模型(如 Stable Diffusion),从而改善图生图效果,并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

论文地址:https://arxiv.org/pdf/2302.05543.pdf项目地址:https://github.com/lllyasviel/ControlNet

效果展示

那么 ControlNet 效果到底如何呢?

Canny 边缘检测:通过从原始图像中提取线稿,能够生成同样构图的图像。

深度检测:通过提取原始图像中的深度信息,可以生成具有同样深度结构的图。

带有语义分割的 ControlNet:

使用基于学习的深度霍夫变换从 Places2 中检测直线,然后使用 BLIP 生成字幕。

HED 边缘检测图示。

人体姿态识别图示。

方法介绍

ControlNet 是一种神经网络架构,它可以增强具有任务特定(task-specific)条件的预训练图像扩散模型。我们先来看 ControlNet 的基本结构。

ControlNet 操纵神经网络块的输入条件,从而进一步控制整个神经网络的整体行为。这里「网络块」指的是一组神经层,它们被放在一起作为一个构建神经网络的常用单元,例如 resnet 块、多头注意力块、Transformer 块。

以 2D 特征为例,给定一个特征图 x ϵ R^h×w×c,其中 {h, w, c} 分别为高度、宽度和通道数。具有一组参数 Θ 的神经网络块 F (・; Θ) 将 x 转换为另一个特征图 y,如下公式 (1) 所示。

这一过程如下图 2-(a) 所示。

神经网络块由一种被称为「零卷积」的独特卷积层连接,即权重和偏置都零初始化的 1×1 卷积层。研究者将零卷积运算表示为 Z (・;・) ,并使用两个参数实例 {Θ_z1, Θ_z2} 组成 ControlNet 结构,如下公式 (2) 所示。

其中 y_c 成为该神经网络块的输出,如下图 2-(b) 所示。

图像扩散模型中的 ControlNet

研究者以 Stable Diffusion 为例,介绍了如何使用 ControlNet 控制具有任务特定条件的大型扩散模型。Stable Diffusion 是一种在数十亿张图像上训练的大型文本到图像扩散模型,本质上是一个由编码器、中间块和残差连接解码器组成的 U-net。

如下图 3 所示,研究者使用 ControlNet 来控制 U-net 的每一层。需要注意,这里连接 ControlNet 的方式在计算上是高效的:由于原始权重被锁定,原始编码器上的梯度计算不需要进行训练。并且又由于原始模型上少了一半梯度计算,可以加快训练速度并节省 GPU 内存。使用 ControlNet 训练一个 Stable Diffusion 模型只需要在每次训练迭代中增加大约 23% 的 GPU 内存和 34% 的时间(在单个 Nvidia A100 PCIE 40G 上测试)。

具体地,研究者使用 ControlNet 创建了 12 个编码块和 1 个 Stable Diffusion 中间块的可训练副本。这 12 个编码块有 4 种分辨率,分别为 64×64、32×32、16×16 和 8×8,每种分辨率有 3 个块。输出被添加到 U-net 的 12 个残差连接和 1 个中间块。由于 Stable Diffusion 是典型的 U-net 结构,因此这种 ControlNet 架构很可能可以用于其他扩散模型。

训练及提升训练

给定图像 z_0,扩散算法渐进地向图像添加噪声并产生噪声图像 z_t,t 是添加噪声的次数。当 t 足够大时,图像近似于纯噪声。给定一组包括时间步长 t、文本 prompts c_t 的条件以及任务特定条件 c_f,图像扩散算法学习网络 ϵ_θ 以预测添加到噪声图像 z_t 的噪声,如下公式 (10) 所示。

在训练过程中,研究者随机将 50% 的文本 prompts c_t 替换为空字符串,这有利于 ControlNet 从输入条件 map 中识别语义内容的能力。

此外,研究者还讨论了几种改进 ControlNets 训练的策略,特别是在计算设备非常有限(如笔记本电脑)或非常强大(如具有可用大规模 GPU 的计算集群)的极端情况下。

更多技术细节请参阅原论文。

相关文章
|
4月前
|
人工智能 文字识别 安全
【WAIC 2025】AI安全的攻防前线:合合信息AI鉴伪检测技术
本文记录了作者在WAIC 2025上对合合信息AI图像鉴伪技术的深度探访,涵盖人脸视频篡改检测、AIGC图像识别、文档篡改检测三大核心技术,探讨AI时代内容安全的挑战与产业落地实践,展现图像伪造检测从技术到生态的系统化演进。
321 0
|
6月前
|
人工智能 运维 安全
基于合合信息开源智能终端工具—Chaterm的实战指南【当运维遇上AI,一场效率革命正在发生】
在云计算和多平台运维日益复杂的今天,传统命令行工具正面临前所未有的挑战。工程师不仅要记忆成百上千条操作命令,还需在不同平台之间切换终端、脚本、权限和语法,操作效率与安全性常常难以兼顾。尤其在多云环境、远程办公、跨部门协作频繁的背景下,这些“低效、碎片化、易出错”的传统运维方式,已经严重阻碍了 IT 团队的创新能力和响应速度。 而就在这时,一款由合合信息推出的新型智能终端工具——Chaterm,正在悄然颠覆这一现状。它不仅是一款跨平台终端工具,更是业内率先引入 AI Agent 能力 的“会思考”的云资源管理助手。
|
2月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
178 1
|
3月前
|
数据采集 人工智能 JSON
学会“读网页”:生成式 AI 在足球赛事信息整理中的实战
本文介绍了一个足球比赛信息提取教程,利用生成式AI从ESPN、虎扑、腾讯体育等网站抓取比赛报道,抽取比分、关键事件和球员表现等信息。步骤包括采集、清洗、分块、调用LLM抽取、校验与落地,以及可视化。需要准备Python环境、安装依赖库,并遵循合规性。提供了示例代码,演示如何从网页抓取文本并调用LLM接口获得结构化输出。
248 3
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
FastRead——AI驱动的智能读写生产力引擎,重构信息处理与内容创作新范式
FastRead是一款智能内容处理工具,基于大模型技术,自动解析网页、文档、音频等多源内容,提取关键信息并生成多模态知识卡片。它重构信息处理流程,提升内容创作效率,适用于新闻、金融、教育、营销等多个场景,助力用户高效获取与输出知识。
FastRead——AI驱动的智能读写生产力引擎,重构信息处理与内容创作新范式
|
4月前
|
人工智能 安全 算法
2025 WAIC探展合合信息展台:AI鉴伪技术洞察“看不见”的伪造痕迹
2025 WAIC世界人工智能大会上,合合信息展台展示了多项AI鉴伪黑科技,涵盖图像、视频和文档篡改检测,能毫秒级识别AI伪造内容,广泛应用于金融、保险、社交媒体等多个领域,助力构建安全可信的AI生态。
199 0
2025 WAIC探展合合信息展台:AI鉴伪技术洞察“看不见”的伪造痕迹
|
5月前
|
人工智能 Serverless 数据处理
AI练习场|如何从多模态文件中自动提取有效信息?
本文介绍了利用AI技术进行多模态文件信息抽取的实战教程,涵盖从文档、图像、音视频等多种数据中自动提取关键信息的技术方案。通过阿里云百炼模型与函数计算服务,实现高效数据处理,适用于信息提取、图片分类、音视频分析等场景,提升数据处理效率与准确性。
AI练习场|如何从多模态文件中自动提取有效信息?
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型新资讯】从信息蜂房到上下文工程
1. **信息蜂房**:借鉴“信息茧房”概念,倡导多元交流与群体智慧,推动内容生态协同发展。 2. **ROLL**:高效强化学习库,专为大语言模型优化,提升训练效率与多场景应用能力。 3. **AI游戏引擎**:以AI驱动生成式游戏,实时响应玩家想象,重塑游戏创作与体验方式。 4. **质陪解决方案**:融合AI质检与陪练系统,全面评估销售行为,助力企业提升服务质量与销售能力。 5. **上下文工程**:构建动态信息环境,为大模型提供任务所需完整背景,决定AI智能体成败关键。