更高清!谷歌推出生成文本到图像的新框架 TReCS,效果超过AttGAN

简介: 谷歌研究人员推出新框架 TRECS,生成的图像更逼真,更符合文字的描述。

微信图片_20220112130153.png 


近年来,基于生成对抗性网络(GAN)的深层神经网络已经大幅提高了端到端可训练的照片式文本到图像的生成结果。许多方法也使用中间场景图(intermediate scene graph)表示来改进图像合成的效果。

 

通过基于对话交互的方法允许用户提供指令来逐步改进和调整生成的场景:通过指定背景中对象的相对位置,为用户提供了更大的控制权。然而,这种方法所使用的语言是有限制的,所产生的图像仅限于3D合成可视化或者卡通。

 

本月初,OpenAI官宣了一个基于Transformer的语言模型DALL-E,使用了GPT-3的120亿参数版本,引起了不小的轰动。

 

根据文字提示,DALL-E生成的图像可以像在现实世界中拍摄的一样。

 

微信图片_20220112130155.gif

 

DALL-E同时接收文本和图像作为单一数据流,包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。

 

谷歌当然不甘落后。

 

最近,谷歌研究院的成员们发表了一篇新论文:以细粒度用户注意力为基础的文本到图像生成.

 

微信图片_20220112130157.png

 

作者在论文中提出了一个新的框架:Tag-Retrieve-Compose Synthesize system (TReCS)。该方法通过改进语言对图像元素的唤醒方式和痕迹对图像元素位置的告知方式,显著提高了图像生成过程。该系统使用了超过250亿个样本来进行训练,并有可能处理103种语言。

 

这篇论文的主要贡献在于:

 

1.第一次展示了在非常困难的文本到图像合成任务中的能力(与之前关于更短的文本任务相比)。

 

2.提出了TRECS,这是一种序列生成模型,它使用最先进的语言和视觉技术生成与语言和空间鼠标轨迹一致的高质量图像。

 

3.进行了自动和人工评估,以证明TRECS生成的图像质量比现有技术有所提高。通过广泛的研究,确定了TRECS管道的关键组成部分,这对于基于用户注意力的文本到图像生成任务至关重要。

 

具体效果如下:

 

微信图片_20220112130158.png

 

或是这样:

 

微信图片_20220112130200.png

 

TRECS的亮点在于可以同时利用文本和鼠标痕迹。


相比对于其他策略,尤其是那些需要场景图的策略,说话时用鼠标指着是一种更自然的方式,供用户在图像合成过程中指示其意图。

 

微信图片_20220112130202.png

 

大致流程如下:

 

1.新的框架利用可控的鼠标轨迹作为细粒度的视觉基础来生成给定用户叙述的高质量图像,标记器用于预测短语中每个单词的对象标记。

 

2. 文本到图像的双重编码器用语义相关的mask掩码来检索图像。对于每个跟踪序列,选择一个mask来最大化空间重叠,克服了真实文本到对象的信息和更好的描述。

 

3. 选定的mask按照跟踪顺序组合,并为背景和前景对象分别绘制画布。前景掩码被置于背景掩码之上,以创建一个完整的场景分割。

 

4. 最后,将整个分割过程输入到掩码到图像的转换模型中,合成出真实感图像。

 

在评价方面,无论是自动判断还是人工评估,该系统都优于目前 SOTA 的文本图像生成技术。从日常语言中翻译出来的杂乱的叙事文本中生成真实可控的照片,显示了这种方法的可行性。同时TReCS 系统也解释了冗长而复杂的文本描述来进行文本-图像生成的复杂性。实验结果表明,该方法可以有效地生成真实感强的文本图像。

 

目前该方法还存在一定的限制,即:缺乏合适的评价指标来定量测量生成的图像的质量。现有的度量方法不能合理地反映基本真实图像和机器生成的真实图像之间的语义相似性。

 

不过,在未来的几年里,这个想法或许可以用来支持各种应用程序,并提供一个友好的人机界面。例如,可以帮助艺术家创建原型,从机器生成的照片中获得洞察力,并生成逼真的图像。此外,它可以用来设计 human-in-the-loop 的评价系统,以优化网络。

 

论文原文链接:

https://arxiv.org/pdf/2011.03775.pdf


相关文章
|
SQL 开发框架 .NET
sql 不同where下的统计
sql 不同where下的统计
175 0
|
XML Java 数据格式
【框架】[Spring]AOP拦截-三种方式实现自动代理(1)
【框架】[Spring]AOP拦截-三种方式实现自动代理
306 0
【框架】[Spring]AOP拦截-三种方式实现自动代理(1)
|
Java 关系型数据库 MySQL
Mybatis(七) mybatis的逆向工程的配置详解
 还是觉得看书学习有意思~嘿嘿。今天把mybatis给结束掉。 
407 0
|
5天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4022 10
|
15天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11615 135
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
4天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
1415 7
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
5天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
5天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2304 9

热门文章

最新文章