能写会画的开源Qwen-Image来咯!魔搭社区提供免费推理微调模型服务!

简介: 今天,通义千问团队开源了 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。


image.gif 编辑

今天,通义千问团队开源了 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。

 

主要特性包括:

  • 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
  • 一致性的图像编辑能力(即将推出): 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
  • 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。

模型链接:

https://www.modelscope.cn/models/Qwen/Qwen-Image

生图体验:

https://www.modelscope.cn/aigc/imageGeneration

01.性能表现

Qwen-Image在多个公开基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。

 

image.gif 编辑

蒸馏加速

Qwen-Image 模型的参数量达到了 20B,需进行至少 40 步推理才能生成一张清晰的图像。DiffSynth-Studio 团队为 Qwen-Image 模型进行了蒸馏加速,目前蒸馏加速模型已光速开源:

https://www.modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Distill-Full

 

 

image.gif 编辑

该模型能够以微小的图像质量损失为代价,实现约 5 倍的加速。

02.效果展示

以下是一些精彩的社区返图作品

多风格插画

 


image.gif 编辑

 


image.gif 编辑

 


image.gif 编辑

 


image.gif 编辑

created by cosmos4343

created by Huskytech

created by wmhovo

created by wmhovo

 

真实人像

 


编辑

 


编辑

 


编辑

 


编辑

 


编辑

 


编辑

以上作品均+LoRA merjic/majicbeauty-qwen1

created by merjic

created by samuelpu

 

字体海报

 


编辑

 


编辑

 


编辑

created by iiiiihb

created by LIXIAOXIAO

created by LIXIAOXIAO

......

更多精彩作品&创作prompt详见

魔搭社区 Qwen-image 返图区

https://www.modelscope.cn/models/MusePublic/Qwen-image/picture

03.模型实战应用

魔搭AIGC专区体验

魔搭社区提供了快速生图 和 专业生图两种模型推理体验方式。

快速生图

提供了直观易用的界面,用户只需输入简单的文本描述,即可一键生成对应风格的高质量图像。

链接:

https://modelscope.cn/aigc/imageGeneration?tab=default

快速生图支持多种预设风格和自定义参数调整,满足从初学者到高级用户的多元化需求。

 

目前Qwen-Image已经是魔搭AIGC专区快速生图的的默认模型:

 

image.gif 编辑

专业生图

当基础的快速生成图像已不足以激发您的灵感,可以一键跳转到专业生图页面,解锁无限可能。

链接:

https://modelscope.cn/aigc/imageGeneration?tab=advanced

 

在专业生图模式下,魔搭社区支持更强大的提示词功能,更丰富的基模与LoRA组合,还引入了图生图、高清修复以及ControlNet等高阶能力,适合有更专业需求的AI生图创作者。

我们用坤坤卡皮的lora+专业生图,可以定制出专属角色的生图效果。

 

image.gif 编辑

模型训练

对于寻求更深层次个性化体验的用户,模型训练页面支持基于社区现有的AIGC基础模型,使用您上传的数据集训练自定义LoRA模型。

链接:

https://modelscope.cn/aigc/modelTraining

 

目前,我们已支持Qwen-Image模型的LoRA训练功能。

通过这一功能,可以在线创建出反映个人风格的独特LoRA模型。无论是打造专属的特色风格,还是实现特定场景的渲染效果,模型训练功能都能成为你的得力助手。

 

image.gif 编辑

本地部署体验

DiffSynth-Studio 第一时间适配了 Qwen-Image 模型,支持低显存推理。

安装:

git clone https://github.com/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .

image.gif

推理(需 80G 显存的 GPU):

from diffsynth.pipelines.qwen_image import QwenImagePipeline, ModelConfig
import torch
pipe = QwenImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="transformer/diffusion_pytorch_model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="text_encoder/model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
    ],
    tokenizer_config=ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="tokenizer/"),
)
prompt = "A detailed portrait of a girl underwater, wearing a blue flowing dress, hair gently floating, clear light and shadow, surrounded by bubbles, calm expression, fine details, dreamy and beautiful."
image = pipe(prompt, seed=0, num_inference_steps=40)
image.save("image.jpg")

image.gif

推理(适配低显存设备,支持低至 4G 显存推理):

from diffsynth.pipelines.qwen_image import QwenImagePipeline, ModelConfig
import torch
pipe = QwenImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="transformer/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="text_encoder/model*.safetensors", offload_device="cpu"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="vae/diffusion_pytorch_model.safetensors", offload_device="cpu"),
    ],
    tokenizer_config=ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="tokenizer/"),
)
pipe.enable_vram_management()
prompt = "精致肖像,水下少女,蓝裙飘逸,发丝轻扬,光影透澈,气泡环绕,面容恬静,细节精致,梦幻唯美。"
image = pipe(prompt, seed=0, num_inference_steps=40)
image.save("image.jpg")

image.gif

更多信息,例如模型训练等,请参考:https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/qwen_image

 

点击阅读原文,直达模型详情~

https://www.modelscope.cn/models/Qwen/Qwen-Image

目录
相关文章
|
2月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
600 4
|
2月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
1074 8
|
4月前
|
并行计算 PyTorch 调度
大模型推理显存优化系列(4):eLLM-大模型推理中的弹性显存管理和优化
本文简要介绍eLLM相关技术挑战、总体设计和初步性能评估
|
4月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
2月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
1704 38
【万字长文】大模型训练推理和性能优化算法总结和实践
|
5月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
5月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
459 1
|
5月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
2月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
392 10