更高清!谷歌推出生成文本到图像的新框架 TReCS,效果超过AttGAN

简介: 谷歌研究人员推出新框架 TRECS,生成的图像更逼真,更符合文字的描述。

微信图片_20220112130153.png 


近年来,基于生成对抗性网络(GAN)的深层神经网络已经大幅提高了端到端可训练的照片式文本到图像的生成结果。许多方法也使用中间场景图(intermediate scene graph)表示来改进图像合成的效果。

 

通过基于对话交互的方法允许用户提供指令来逐步改进和调整生成的场景:通过指定背景中对象的相对位置,为用户提供了更大的控制权。然而,这种方法所使用的语言是有限制的,所产生的图像仅限于3D合成可视化或者卡通。

 

本月初,OpenAI官宣了一个基于Transformer的语言模型DALL-E,使用了GPT-3的120亿参数版本,引起了不小的轰动。

 

根据文字提示,DALL-E生成的图像可以像在现实世界中拍摄的一样。

 

微信图片_20220112130155.gif

 

DALL-E同时接收文本和图像作为单一数据流,包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。

 

谷歌当然不甘落后。

 

最近,谷歌研究院的成员们发表了一篇新论文:以细粒度用户注意力为基础的文本到图像生成.

 

微信图片_20220112130157.png

 

作者在论文中提出了一个新的框架:Tag-Retrieve-Compose Synthesize system (TReCS)。该方法通过改进语言对图像元素的唤醒方式和痕迹对图像元素位置的告知方式,显著提高了图像生成过程。该系统使用了超过250亿个样本来进行训练,并有可能处理103种语言。

 

这篇论文的主要贡献在于:

 

1.第一次展示了在非常困难的文本到图像合成任务中的能力(与之前关于更短的文本任务相比)。

 

2.提出了TRECS,这是一种序列生成模型,它使用最先进的语言和视觉技术生成与语言和空间鼠标轨迹一致的高质量图像。

 

3.进行了自动和人工评估,以证明TRECS生成的图像质量比现有技术有所提高。通过广泛的研究,确定了TRECS管道的关键组成部分,这对于基于用户注意力的文本到图像生成任务至关重要。

 

具体效果如下:

 

微信图片_20220112130158.png

 

或是这样:

 

微信图片_20220112130200.png

 

TRECS的亮点在于可以同时利用文本和鼠标痕迹。


相比对于其他策略,尤其是那些需要场景图的策略,说话时用鼠标指着是一种更自然的方式,供用户在图像合成过程中指示其意图。

 

微信图片_20220112130202.png

 

大致流程如下:

 

1.新的框架利用可控的鼠标轨迹作为细粒度的视觉基础来生成给定用户叙述的高质量图像,标记器用于预测短语中每个单词的对象标记。

 

2. 文本到图像的双重编码器用语义相关的mask掩码来检索图像。对于每个跟踪序列,选择一个mask来最大化空间重叠,克服了真实文本到对象的信息和更好的描述。

 

3. 选定的mask按照跟踪顺序组合,并为背景和前景对象分别绘制画布。前景掩码被置于背景掩码之上,以创建一个完整的场景分割。

 

4. 最后,将整个分割过程输入到掩码到图像的转换模型中,合成出真实感图像。

 

在评价方面,无论是自动判断还是人工评估,该系统都优于目前 SOTA 的文本图像生成技术。从日常语言中翻译出来的杂乱的叙事文本中生成真实可控的照片,显示了这种方法的可行性。同时TReCS 系统也解释了冗长而复杂的文本描述来进行文本-图像生成的复杂性。实验结果表明,该方法可以有效地生成真实感强的文本图像。

 

目前该方法还存在一定的限制,即:缺乏合适的评价指标来定量测量生成的图像的质量。现有的度量方法不能合理地反映基本真实图像和机器生成的真实图像之间的语义相似性。

 

不过,在未来的几年里,这个想法或许可以用来支持各种应用程序,并提供一个友好的人机界面。例如,可以帮助艺术家创建原型,从机器生成的照片中获得洞察力,并生成逼真的图像。此外,它可以用来设计 human-in-the-loop 的评价系统,以优化网络。

 

论文原文链接:

https://arxiv.org/pdf/2011.03775.pdf


相关文章
|
3天前
|
人工智能 文字识别 测试技术
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮
苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。MM1.5基于MM1模型,具备更强的文本处理、视觉理解和多图推理能力,适用于多种下游任务。此外,还推出了专门用于视频理解和移动UI理解的变体。
11 3
|
4月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
32 1
|
6月前
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
|
6月前
|
人工智能 编解码 数据安全/隐私保护
才发现百度自带的AI图片助手这么好用,去水印、画质优化、AI扩图、涂抹消除等功能一应俱全!
才发现百度自带的AI图片助手这么好用,去水印、画质优化、AI扩图、涂抹消除等功能一应俱全!
925 0
|
编解码 人工智能 自然语言处理
图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度(1)
图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度
|
编解码 自然语言处理
图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度(2)
图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度
110 0
|
机器学习/深度学习 编解码 自然语言处理
CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类
CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类
277 0
|
人工智能 自然语言处理 算法
Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!
近日,来自Facebook、哥伦比亚大学等高校的研究人员开发了一种可以从视频、对话历史、音频以及语音文本中生成高层次语义信息的框架——Vx2Text,该模型可以用来概括信息内容,并准确地回答相关问题。
164 0
Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!
|
编解码 自然语言处理 计算机视觉
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
218 0
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
|
机器学习/深度学习 人工智能 编解码