[大语言模型] LINFUSION：1个GPU，1分钟，16K图像-阿里云开发者社区

[大语言模型] LINFUSION：1个GPU，1分钟，16K图像

2024-10-23 36

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： [大语言模型] LINFUSION：1个GPU，1分钟，16K图像

1. 文章

LINFUSION: 1 GPU, 1 MINUTE, 16K IMAGE

摘要

本文介绍了一种新型的扩散模型LINFUSION，它能够在保持高分辨率图像生成性能的同时显著降低时间和内存复杂度。该模型采用了基于Transformer的UNet进行去噪，并且通过引入线性注意力机制替代了传统的自注意力操作，以解决高分辨率视觉内容生成中的挑战。研究者们从最近引入的具有线性复杂度的模型中获得灵感，提出了一种新的线性注意力范式，该范式可作为多种流行的线性令牌混合器的低秩近似。通过从预训练的StableDiffusion (SD)模型中初始化并进行知识蒸馏，LINFUSION在适度训练后即可达到或超过原始SD的性能，同时显著减少时间和内存复杂度。实验表明，LINFUSION能够生成高达16K分辨率的高分辨率图像，并且与预训练的SD组件（如ControlNet和IP-Adapter）高度兼容。

创新点

提出了一种新的线性注意力机制，作为传统自注意力方法的替代，以解决高分辨率图像生成中的时间和内存复杂度问题。
引入了注意力归一化和非因果推理两个关键特性，以增强高分辨率视觉生成性能。
通过知识蒸馏的方式，从预训练的StableDiffusion模型中初始化并优化LINFUSION，减少了训练成本并提高了与现有模型的兼容性。

算法模型

LINFUSION模型基于Stable Diffusion (SD)，通过以下关键技术构建：

- 线性注意力机制：替代SD中的自注意力层，以线性复杂度处理空间令牌。

- 注意力归一化：确保不同输入规模下的总影响保持一致。

- 非因果推理：允许模型同时访问所有噪声空间令牌并基于整个输入生成去噪令牌。

- 知识蒸馏：从预训练的SD模型中转移知识，以优化LINFUSION模型。

实验效果

生成速度和内存消耗：在8步去噪和单GPU情况下，与原始SD-v1.5相比，LINFUSION在不同分辨率下的生成速度更快，内存消耗更低。
跨分辨率生成性能：在SD-v1.5、SD-v2.1和SD-XL上的实验表明，LINFUSION在零样本跨分辨率生成性能上令人满意，能够生成高达16K分辨率的图像。
与预训练组件的兼容性：LINFUSION与SD的现有组件（如ControlNet和IP-Adapter）高度兼容，无需额外训练成本。

[大语言模型] LINFUSION：1个GPU，1分钟，16K图像

摘要

创新点

算法模型

实验效果

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

[大语言模型] LINFUSION：1个GPU，1分钟，16K图像

摘要

创新点

算法模型

实验效果

热门文章

最新文章

相关课程

相关电子书

相关实验场景