首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素(1)

简介: 首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素

首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素

新智元新智元 2023-03-26 12:15 发表于北京



 新智元报道  

编辑:LRS

【新智元导读】GAN模型也有变大的潜力!


AIGC爆火的背后,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。


随着OpenAI发布DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出StyleGAN等技术。



从GAN切换到扩散模型的架构转变也引出了一个问题:能否通过扩大GAN模型的规模,比如说在 LAION 这样的大型数据集中进一步提升性能吗?


最近,针对增加StyleGAN架构容量会导致不稳定的问题,来自浦项科技大学(韩国)、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN,打破了模型的规模限制,展示了 GAN 仍然可以胜任文本到图像合成模型。


论文链接:https://arxiv.org/abs/2303.05511

项目链接:https://mingukkang.github.io/GigaGAN/


GigaGAN有三大优势


1. 它在推理时速度更快,相比同量级参数的Stable Diffusion-v1.5,在512分辨率的生成速度从2.9秒缩短到0.13秒。



2. 可以合成高分辨率的图像,例如,在3.66秒内合成1600万像素的图像。



3. 支持各种潜空间编辑应用程序,如潜插值、样式混合和向量算术操作等。



GAN到极限了吗?


最近发布的一系列模型,如DALL-E 2、Imagen、Parti和Stable Diffusion,开创了图像生成的新时代,在图像质量和模型灵活性方面达到了前所未有的水平。

现在占主导地位的范式「扩散模型」和「自回归模型」,都依赖于迭代推理这把双刃剑,因为迭代方法能够以简单的目标进行稳定的训练,但在推理过程中会产生更高的计算成本。


与此形成对比的是生成对抗网络(GAN),只需要一次forward pass即可生成图像,因此本质上是更高效的。


虽然GAN模型主导了生成式建模的「前一个时代」,但由于训练过程中的不稳定性,对GAN进行扩展需要仔细调整网络结构和训练考虑,因此GANs虽然在为单个或多个对象类别建模方面表现出色,但扩展到复杂的数据集上(更不用说开放世界物体生成了),仍然具有挑战性。


所以目前超大型的模型、数据和计算资源都主要集中在扩散和自回归模型上。

在这项工作中,研究人员主要解决以下问题:


GAN能否继续扩大规模并有可能从这些资源中受益?或者说GAN已经到达极限了?是什么阻碍了GAN的进一步扩展?能否克服这些障碍?


稳定训练GAN


研究人员首先用StyleGAN2进行实验,观察到简单地扩展骨干网会导致不稳定的训练,在确定了几个关键问题后,提出了在增加模型容量的同时稳定训练的技术。


首先,通过保留一个滤波器库(a bank of filters),并采取一个特定样本的线性组合来有效地扩展生成器的容量。


改编了几个在扩散模型上下文中常用的技术,并确认它们可以为GANs带来了类似的性能提升,例如将自注意力机制(仅图像)和交叉注意力(图像-文本)与卷积层交织在一起可以提高性能。


此外,研究人员重新引入了多尺度训练(multi-scaletraining),找到了一个新的方案可以改善图像-文本对齐和生成输出的低频细节。


多尺度训练可以让基于GAN的生成器更有效地使用低分辨率块中的参数,从而具有更好的图像-文本对齐和图像质量。


生成器



GigaGAN的生成器由文本编码分支(text encoding branch)、样式映射网络(style mapping network)、多尺度综合网络(multi-scale synthesis network)组成,并辅以稳定注意力(stable attention)和自适应核选择(adaptive kernel selection)。


在文本编码分支中,首先使用一个预先训练好的 CLIP 模型和一个学习的注意层 T 来提取文本嵌入,然后将嵌入过程传递给样式映射网络 M,生成与 StyleGAN 类似的样式向量 w



合成网络采用样式编码作为modulation,以文本嵌入作为注意力来生成image pyramid,在此基础上,引入样本自适应核选择算法,实现了基于输入文本条件的卷积核自适应选择。



判别器



与生成器类似,GigaGAN的判别器由两个分支组成,分别用于处理图像和文本条件。


文本分支处理类似于生成器的文本分支;图像分支接收一个image pyramid作为输入并对每个图像尺度进行独立的预测。



公式中引入了多个额外的损失函数以促进快速收敛。



相关文章
|
5月前
|
存储 人工智能 小程序
微信掌上医院是如何实现的?智慧掌上医院核心实现原理及关键技术解析
微信掌上医院(智慧医院)小程序源码,基于uni-app与Vue.js开发,集成预约挂号、在线支付、报告查询等功能,支持与医院HIS、医保系统对接,采用微服务架构与多重安全机制。
221 2
|
10月前
|
关系型数据库 分布式数据库 数据安全/隐私保护
PolarDB 开源基础教程系列 5 高级特性体验
PolarDB 特性解读与体验涵盖多项关键技术,包括预读/预扩展、Shared Server(建议使用连接池)、闪回表和闪回日志、弹性跨机并行查询(ePQ)及TDE透明数据加密。预读/预扩展通过批量I/O操作显著提升Vacuum、SeqScan等场景性能;Shared Server优化高并发短连接处理;闪回功能可恢复表至指定时间点;ePQ支持跨机并行查询以提高复杂查询效率;TDE确保数据存储层的安全加密。
326 3
|
机器学习/深度学习 自然语言处理 语音技术
使用Python实现深度学习模型:智能语音助手与家庭管理
使用Python实现深度学习模型:智能语音助手与家庭管理
500 0
|
机器学习/深度学习 缓存 编解码
AIGC 商业化道路探索 - Stable Diffusion 商业化应用(上)
Stable Diffusion 应用到商业领域的案例越来越多,商用场景下的技术架构应当如何构建?本文基于阿里云近期的一个 Stable Diffusion 商业案例,对大规模底模切换、大量 LoRA 调优的场景提出一个商业场景适用的技术架构,并已实现部署交付,稳定运行。
|
SQL 关系型数据库 MySQL
【MySQL】:探秘主流关系型数据库管理系统及SQL语言
【MySQL】:探秘主流关系型数据库管理系统及SQL语言
662 0
|
容器
layui-table 多一列问题
layui-table 多一列问题
362 0
|
存储 NoSQL MongoDB
MongoDB 8.0现已全面可用
如何从MongoDB旧版本升级至8.0,可登录参考升级指南:https://www.mongodb.com/zh-cn/docs/manual/tutorial/upgrade-revision/
|
人工智能 自然语言处理 搜索推荐
「AIGC」AIGC提供内容生成效率
**AI自动化内容生成**涉及自然语言、图像、视频和音频,如新闻自动生成、GANs创造图像、语音合成和模板化内容。工具如Automated Insights、Articoolo、Synthesia和Replica Studios分别在新闻、视频和音频领域应用。 **内容分发与推广**中,AI提供个性化推荐(如Netflix、Spotify)、社交媒体优化(Buffer、Hootsuite)、自动化广告投放(Google Ads、Facebook Ads),以及SEO优化。
296 0
|
机器学习/深度学习 算法
正则化(Regularization)
正则化是防止机器学习过拟合的策略,通过在损失函数中添加惩罚项(如L1或L2范数)来降低模型复杂度,提高泛化能力。L1正则化产生稀疏权重,倾向于使部分权重变为0,而L2正则化使所有权重变小,具有平滑性。正则化强度由λ控制,λ越大,泛化能力越强,但可能导致欠拟合。
468 0
|
图形学
【unity小技巧】unity3d环境带雾的昼夜系统变化
【unity小技巧】unity3d环境带雾的昼夜系统变化
323 0