Meissonic:高效高分辨率文生图重大革新

简介: Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。

01前言

由阿里巴巴集团、Skywork AI和香港科技大学及其广州校区、浙江大学、加州大学伯克利分校联合的研究团队提出了一种名为Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。

Meissonic旨在通过融合先进的技术和方法来提升非自回归图像生成器(MIM)在文本到图像(T2I)合成任务中的性能和效率。Meissonic主要通过引入改进的Transformer架构、高级位置编码策略以及动态采样条件,实现了对MIM技术的重大革新。

此外,该模型还利用高质量训练数据、微调条件和特征压缩层进一步提升了图像生成的质量和分辨率。实验结果表明,Meissonic不仅在高分辨率图像生成方面与当前最先进的扩散模型相媲美,而且其参数量远小于这些大型模型,能够在不牺牲性能的前提下运行在消费级GPU上,无需额外优化。总体而言,Meissonic代表了向高效、高质量文本到图像合成迈出了重要一步,同时为未来的相关研究提供了新的方向和技术参考。

近期,Collov-Labs开发的Monetico 是 Meissonic 的高效复制版。在 8 个 H100 GPU 上训练约一周后,Monetico 可以生成高质量的 512x512 图像,与 Meissonic 和 SDXL 生成的图像相当。今天也登录Huggingface趋势榜榜首。

模型链接:

https://modelscope.cn/models/AI-ModelScope/Monetico

在线Demo链接:

https://modelscope.cn/studios/AI-ModelScope/Monetico

关键要点

  1. 下一代高效文生图模型:Meissonic是一种基于masked discrete image token modeling的下一代文生图模型,非常高效。
  2. 改进的Transformer架构:通过结合多模态和单模态Transformers层,可以显著提高MIM训练效率和性能。
  3. 高级位置编码:使用RoPE进行编码位置信息,并使用动态采样条件来实现更好的图像细节和质量。
  4. 高质量训练数据:高质量的训练数据、微调条件和特征压缩层有助于提高生成能力。
  5. 高效生成,支持消费级显卡:Meissonic能够在消费者级GPU上运行,且不需要任何额外的优化。

02模型架构

Meissonic模型架构旨在通过集成框架促进高效高性能的文本到图像合成,该集成框架包括CLIP文本编码器,vector-quanlized(VQ)图像编码器和解码器,以及多模态Transformer backbone。下图显示了模型的整体结构。

vector-quanlized图像编码器和解码器。

研究团队使用一个VQ-VAE模型将原始图像像素转换为离散的语义令牌。该模型包括一个编码器、一个解码器以及一个映射输入图像到由学习代码书生成的序列的离散令牌的量化层。对于大小为H×W的图像,编码的令牌尺寸是Hf×Wf,其中f表示下采样比。实现中,利用了f = 16的下采样比和8192个代码书大小,允许1024×1024图像被编码成64×64个离散令牌的序列。

灵活高效的文本编码器。

与之前广泛使用的大型语言模型编码器(例如T5-XXL1)不同,使用的是CLIP模型的最先进的单个文本编码器,其潜在维度为1024,然后对其进行微调以获得最佳的T2I性能。虽然这一决策可能会限制模型对较长文本提示的理解能力,但我们的观察表明,排除像T5这样的大规模文本编码器并不会降低视觉质量。此外,这种方法显著降低了GPU内存需求和计算成本。值得注意的是,在线提取T5特征需要大约11倍的处理时间和6倍的存储空间,这凸显了设计的高效性。

多模态Transformer backbone用于Masked Image Modeling。

Transformer架构建立在多模态Transformer框架之上,该框架包括采样参数r以编码采样参数和旋转位置嵌入(RoPE),用于空间信息编码。引入特征压缩层来高效处理高分辨率生成的大量离散令牌。这些层将嵌入特征从64×64压缩到32×32,然后通过变压器进行处理,并由后继的特征解压缩层恢复为64×64,从而减轻计算负担。为了增强训练稳定性并缓解NaN损失问题,在分布式训练期间遵循LLaMa的训练策略,在训练过程中实施梯度裁剪和检查点重新加载,并集成QK-Norm层进入架构。


多样化的微环境条件。

为了增强生成性能,引入了额外的条件,例如原始图像分辨率、裁剪坐标和人类偏好分数。这些条件被转换为正弦嵌入,并与最终文本编码器池化隐藏状态的附加通道进行拼接。

Masking策略。采用一个随余弦调度变化的可变掩蔽比率。具体来说,从以下密度函数所描述的截断反正切分布中随机采样一个掩蔽比率r∈ [0, 1],密度函数如下:

相比自回归模型为固定的标记顺序学习条件分布 ,本文的方法通过随机masking和可变比率来让模型学习 ,适用于任意标记子集 。这种灵活性对并行采样策略至关重要,并促进了各种零样本图像编辑能力。

03模型效果体验

04模型效果对比

05魔搭最佳实践

在魔搭社区免费算力运行webui

第一步:

打开免费算力(单卡A10)

第二步:

clone代码并安装依赖

git clone https://www.modelscope.cn/studios/MeissonFlow/meissonic.git
cd meissonic
pip install -r requirements.txt

第三步:

运行app.py

# 魔搭社区运行gradio,需要指定域名处dsw路径
export GRADIO_ROOT_PATH=/dsw-xxx/proxy/7860/
python app.py

体验页面:

显存占用:

06未来展望

和作者沟通,Meissonic int4已经优化完毕,大概4GB显存就够了,狠狠的期待住了。

随着端侧设备的日益强大,离线文生图模型应用程序已经在移动端上线,例如 Google Pixel 9 的 Pixel Studio 和 Apple iPhone 16 的 Image Playground,我们期待Meissonic早日登上移动端设备,提供了高效高分辨率文生图能力的同时,离线运行能够更好的保护用户隐私。

文章链接:

https://arxiv.org/pdf/2410.08261

模型链接:

https://modelscope.cn/models/MeissonFlow/Meissonic

在线Demo链接:

https://modelscope.cn/studios/MeissonFlow/meissonic/

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
SQL 关系型数据库 MySQL
【MySQL】一文带你搞懂MySQL中的各种锁
【MySQL】一文带你搞懂MySQL中的各种锁
1246 0
|
11月前
|
机器学习/深度学习 编解码 人工智能
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
Meissonic是一种新型图像生成模型,采用非自回归的掩码图像建模(MIM)方法,在性能和效率上超越了当前最先进的扩散模型SDXL。其创新点包括改进的注意力机制、多尺度特征提取、先进位置编码策略和优化采样条件等,能够生成高质量、高分辨率图像。此外,Meissonic引入人类偏好评分和特征压缩层,提升图像质量和计算效率。尽管存在一些挑战,Meissonic为统一语言-视觉模型的发展提供了新思路,并在创意设计、虚拟现实等领域展现出广泛应用前景。
251 24
|
7月前
|
人工智能 自然语言处理 搜索推荐
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
587 10
|
12月前
|
存储 缓存 物联网
MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!
随着移动端(手机/平板等)算力、内存、磁盘空间的不断增长,在移动端部署大模型逐渐成为可能。在端侧运行大模型,可以有一系列好处:去除网络延迟,加快响应速度;降低算力成本,便于大规模应用;不需数据上传,保护用户稳私。
2130 13
MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!
|
8月前
|
消息中间件 人工智能 Kafka
【云故事探索】NO.14:乐言科技——云原生加速电商行业赋能,云消息队列助力降本 37%
上海乐言科技股份有限公司专注于AI技术,提供电商、金融等领域的整体解决方案。其核心产品“乐语助人”智能客服机器人日均服务超千万人次,助力六万余家电商客户数智化转型。为解决自建消息队列痛点,乐言科技采用阿里云消息队列RocketMQ版Serverless系列,实现业务稳定、开发成本降低、运维效率提升及资源弹性降本37%。通过云原生架构,乐言科技推动AI与电商深度融合,助力行业创新突破。
|
10月前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
3241 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
1259 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41919 20
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
288 6
|
编解码 自然语言处理 机器人
通义千问Qwen2-VL开源,API可直接调用!
通义千问宣布开源第二代视觉语言模型Qwen2-VL,并推出2B、7B两个尺寸及其量化版本模型。同时,旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台,用户可直接调用。
6586 10