只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型

简介: 只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型

来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。


其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。


一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。


虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。



为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。



论文地址:https://arxiv.org/pdf/2208.12242.pdf

项目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion


该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。


具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。


首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。


第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。


我们来看一下该研究提出的具体方法。


方法介绍


给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。


更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。



该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。


为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。


为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:



稀有 token 标识符表示主题


该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。


效果展示


下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:



训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:



在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;



绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:



输入提示「a dog on top of sks container」就能让小狗坐在箱子里:


下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:



该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:


想要了解更多细节,请参考原论文。

相关文章
|
10天前
|
人工智能 Linux API
阿里云+本地三系统部署 OpenClaw 及精准参数调优手册:千问/Coding Plan模型对接教程
在日常使用OpenClaw(原Clawdbot)的过程中,很多用户都会遇到输出随机、答非所问、重复啰嗦、长度失控等问题,这些并非模型能力不足,而是**温度、最大生成长度、采样参数、惩罚系数**没有匹配场景。与此同时,正确完成云端与本地部署、对接稳定大模型,是让AI稳定输出的前提。
525 17
|
4月前
|
安全 API 数据库
淘宝商品上架自动化:API接口集成实战指南
针对传统商品上架人力成本高、出错率高、响应慢三大痛点,本方案基于淘宝开放平台API,构建自动化上架系统。通过Python调用商品创建、图片上传、库存价格等接口,实现7×24小时无人值守操作,上架效率提升10倍,错误率降至0.5%以下。结合批量处理、日志审计与安全防护机制,助力商家释放运营人力,专注营销优化。
454 0
|
6天前
|
人工智能 机器人 Linux
OpenClaw 阿里云轻量+本地部署:企业微信集成、大模型千问/Coding Plan对接与常见问题解答
OpenClaw(原Clawdbot)作为本地优先、模块化的AI代理平台,2026年版本深度适配企业微信生态,可实现企业微信内自然语言交互、任务自动化、信息查询与办公协作全场景覆盖。本文提供2026年阿里云轻量服务器、本地MacOS/Linux/Windows11完整部署流程,详解企业微信接入(自建应用+机器人双模式)、阿里云千问大模型API与免费Coding Plan API配置方法,附可直接复制的代码命令与高频问题解决方案,零基础用户也能快速搭建稳定、安全、可协作的企业级AI助手系统。
168 5
|
4月前
|
人工智能 自然语言处理 搜索推荐
2025年11月,中国数字人平台介绍及应用场景全解析
2025年,数字人技术加速落地,凭借AI、图形学与多模态交互融合,广泛应用于金融、教育、政务等领域。
|
3月前
|
存储 弹性计算 人工智能
2026年阿里云服务器租用费用明细(轻量服务器、ECS云服务器、GPU云服务器)
2026年阿里云服务器租用费用采用“基础配置+组件叠加”的透明定价模式,无隐藏消费,核心覆盖轻量应用服务器、ECS云服务器、GPU高性能服务器三大品类,费用从38元/年到数万元/年不等。结合最新计费政策、优惠活动及适用场景,本文一次性讲清所有费用细节,帮你精准把控预算,避开省钱陷阱。
487 1
|
11月前
|
消息中间件 存储 中间件
分布式消息中间件基础
消息中间件是一种基于异步消息传递的分布式系统通信工具,核心功能包括消息传输、存储、路由与投递,能够实现系统解耦、异步处理和流量削峰。其主要组件包括生产者、消费者、Broker、主题/队列等,支持点对点和发布-订阅两种消息模型。主流中间件如Kafka(高吞吐)、RabbitMQ(灵活路由)、RocketMQ(事务支持)各有特色,适用于不同场景。此外,中间件还涉及多种协议(AMQP、MQTT等)、可靠性传输机制(持久化、确认机制)、顺序性与重复性问题解决以及事务支持(两阶段提交、本地消息表等)。选择中间件需根据业务需求权衡性能、功能和运维成本。
503 6
|
小程序 UED
拓展校友网络的创新解决方案:校园论坛圈子小程序+跑腿+二手市场系统
这是一款基于小程序的校园跑腿服务平台,支持多种注册登录方式、下单支付、跑腿接单配送、订单跟踪评价及物流查询功能,并配备客服模块提升用户体验。系统包含用户、客服、物流、跑腿员和订单五大核心模块,功能完善。此外,平台还拓展了校友网络功能,如信息咨询发布、校园社区建设和活动组织等,旨在增强校友互动与联系,形成紧密的校友生态。
369 4
|
自然语言处理 搜索推荐 安全
国产CRM系统推荐:助力企业数字化转型
随着企业数字化转型加速,国产CRM系统凭借高性价比、本地化服务和灵活定制能力,成为众多企业的首选。本文对比推荐了几款主要的国产CRM系统,包括销售易、神州云动、八骏科技、纷享销客、悟空CRM等,分析其功能优势、服务支持及适用场景。销售易适合中大型企业,提供全面解决方案;神州云动强调全流程支持和客户数据管理;八骏科技注重全方位客户管理和数据分析;纷享销客则适合中小型企业,强调移动办公和社交化营销;悟空CRM以轻量化设计和简单操作赢得中小企业青睐。选择指南建议企业根据规模、预算、行业特点及系统集成需求,选择最适合的CRM系统,助力业绩高质量增长。
|
监控 Unix Linux
|
前端开发 JavaScript 开发工具
2024年前端开发的十大必备技巧
本文概述了2024年前端开发的十大关键技能,包括现代JavaScript、CSS Grid/Flexbox布局、主流框架精通、Web性能优化、Git版本控制、调试技巧、Web可访问性、现代构建工具使用、PWA开发及持续学习,旨在助力开发者提升Web开发质量和用户体验。

热门文章

最新文章