更高清！谷歌推出生成文本到图像的新框架 TReCS，效果超过AttGAN-阿里云开发者社区

更高清！谷歌推出生成文本到图像的新框架 TReCS，效果超过AttGAN

2022-01-12 155

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 谷歌研究人员推出新框架 TRECS，生成的图像更逼真，更符合文字的描述。

微信图片_20220112130153.png

近年来，基于生成对抗性网络(GAN)的深层神经网络已经大幅提高了端到端可训练的照片式文本到图像的生成结果。许多方法也使用中间场景图（intermediate scene graph）表示来改进图像合成的效果。

通过基于对话交互的方法允许用户提供指令来逐步改进和调整生成的场景：通过指定背景中对象的相对位置，为用户提供了更大的控制权。然而，这种方法所使用的语言是有限制的，所产生的图像仅限于3D合成可视化或者卡通。

本月初，OpenAI官宣了一个基于Transformer的语言模型DALL-E，使用了GPT-3的120亿参数版本，引起了不小的轰动。

根据文字提示，DALL-E生成的图像可以像在现实世界中拍摄的一样。

微信图片_20220112130155.gif

DALL-E同时接收文本和图像作为单一数据流，包含多达1280个token，并使用最大似然估计来进行训练，以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像，而且还可以重新生成现有图像的任何矩形区域，与文本提示内容基本一致。

谷歌当然不甘落后。

最近，谷歌研究院的成员们发表了一篇新论文：以细粒度用户注意力为基础的文本到图像生成.

微信图片_20220112130157.png

作者在论文中提出了一个新的框架：Tag-Retrieve-Compose Synthesize system (TReCS)。该方法通过改进语言对图像元素的唤醒方式和痕迹对图像元素位置的告知方式，显著提高了图像生成过程。该系统使用了超过250亿个样本来进行训练，并有可能处理103种语言。

这篇论文的主要贡献在于：

1.第一次展示了在非常困难的文本到图像合成任务中的能力（与之前关于更短的文本任务相比）。

2.提出了TRECS，这是一种序列生成模型，它使用最先进的语言和视觉技术生成与语言和空间鼠标轨迹一致的高质量图像。

3.进行了自动和人工评估，以证明TRECS生成的图像质量比现有技术有所提高。通过广泛的研究，确定了TRECS管道的关键组成部分，这对于基于用户注意力的文本到图像生成任务至关重要。

具体效果如下：

微信图片_20220112130158.png

或是这样：

微信图片_20220112130200.png

TRECS的亮点在于可以同时利用文本和鼠标痕迹。

相比对于其他策略，尤其是那些需要场景图的策略，说话时用鼠标指着是一种更自然的方式，供用户在图像合成过程中指示其意图。

微信图片_20220112130202.png

大致流程如下：

1.新的框架利用可控的鼠标轨迹作为细粒度的视觉基础来生成给定用户叙述的高质量图像，标记器用于预测短语中每个单词的对象标记。

2. 文本到图像的双重编码器用语义相关的mask掩码来检索图像。对于每个跟踪序列，选择一个mask来最大化空间重叠，克服了真实文本到对象的信息和更好的描述。

3. 选定的mask按照跟踪顺序组合，并为背景和前景对象分别绘制画布。前景掩码被置于背景掩码之上，以创建一个完整的场景分割。

4. 最后，将整个分割过程输入到掩码到图像的转换模型中，合成出真实感图像。

在评价方面，无论是自动判断还是人工评估，该系统都优于目前 SOTA 的文本图像生成技术。从日常语言中翻译出来的杂乱的叙事文本中生成真实可控的照片，显示了这种方法的可行性。同时TReCS 系统也解释了冗长而复杂的文本描述来进行文本-图像生成的复杂性。实验结果表明，该方法可以有效地生成真实感强的文本图像。

目前该方法还存在一定的限制，即：缺乏合适的评价指标来定量测量生成的图像的质量。现有的度量方法不能合理地反映基本真实图像和机器生成的真实图像之间的语义相似性。

不过，在未来的几年里，这个想法或许可以用来支持各种应用程序，并提供一个友好的人机界面。例如，可以帮助艺术家创建原型，从机器生成的照片中获得洞察力，并生成逼真的图像。此外，它可以用来设计 human-in-the-loop 的评价系统，以优化网络。

论文原文链接：

https://arxiv.org/pdf/2011.03775.pdf

更高清！谷歌推出生成文本到图像的新框架 TReCS，效果超过AttGAN

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

更高清！谷歌推出生成文本到图像的新框架 TReCS，效果超过AttGAN

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景