首个2步LoRA!2步实现Qwen-Image-2512高质量图片生成

简介: 阿里智能引擎推出Qwen-Image-2512-Turbo,将扩散模型压缩至仅2步生成,提速40倍——5秒内输出4张2K图,效果媲美原模型。融合Reverse-KL蒸馏、热启动与对抗学习,显著提升细节与真实性。已开源,支持ModelScope、呜哩AI及ComfyUI。

生一张图要多久?一分钟?30秒?

阿里巴巴智能引擎团队给出的答案是:眨眼之间

当前的扩散生成模型往往需要 40~50 步迭代,若考虑 CFG(Classifier-Free Guidance),则等效于 80~100 步前向计算。这意味着用户需要经历漫长的等待,服务器也背负着高昂的推理成本。以 Qwen-Image 为例,单张图片生成往往需要近一分钟。

阿里智能引擎提出一个全新方案:针对 Qwen 最新开源模型,成功将 SOTA 压缩水平推进到了 2 步(Step)。 在保证极具竞争力的生成效果前提下,实现了 40 倍的惊人加速。用户等待 5 秒左右即可生成 4 张 2k 分辨率的图片



AIGC专区免费体验


(地址:https://modelscope.cn/aigc/imageGeneration


呜哩 AI 平台免费体验(限时)


(地址:https://www.wuli.art


ComfyUI的官方Qwen-Image-2512工作流也支持推理



开源地址:

HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps

ModelScope:Qwen-Image-2512-Turbo-LoRA-2-Steps

工业落地级蒸馏方案深度拆解

从样本空间到概率空间,Reverse-KL实现蒸馏细节保留

传统轨迹蒸馏的“细节困境”

早期的蒸馏方案[1,2],往往可以被归纳为轨迹蒸馏(Trajectory Distillation)。具体的,其本身主要思想是希望蒸馏后模型(student model)能够模仿原模型(teacher model)在多步生成的路径:

  • Progressive Distillation:student model需要直接对齐teacher model多次迭代后的输出;
  • Consistency Distillation:student需要保证在teacher model的去噪轨迹上,输出相同的结果。

但这类方法在实践中很难在低迭代步数下实现高质量生成,最突出的问题是生成图像模糊,这一现象在近期研究[3]中也得到验证:


问题根源在于约束方式:轨迹蒸馏直接对student model的生成样本 xstudentx_{student} 做约束,使其在特定距离度量下对齐teacher预测出的高质量输出x_{teacher},具体可以表达为

Loss=f(xstudent,xteacher)Loss = f(x_{student}, x_{teacher})

其中f(\cdot)是特定的距离函数, xteacherx_{teacher} 是teacher经过多次去噪以后得到的输出。可以看出,这一loss这种Loss对所有图像patch一视同仁,对于一些特别细节的部分(如文字,人物五官)因占比低而学习不充分,student模型的细节常出现明显扭曲。

从样本空间到概率空间,直接降低缺陷样本生成概率

近期,基于概率空间的蒸馏方案在较少步数场景(4~8步)获得了巨大的成功,基本解决上述的细节丢失的问题。其中最有影响力的工作之一是DMD2算法,这里具体的算法方案可以参考原论文[4]。DMD2将约束从样本空间转换到了概率空间,其Loss设计为:

Loss=∫x0pstudent(x0)log⁡pstudent(x0)pteacher(x0)dx0=Ex0∼pstudent(x0)∫x0log⁡pstudent(x0)pteacher(x0)dx0.Loss =\int_{x_0} p_{student}(x_0)\log \frac{p_{student}(x_0)}{p_{teacher}(x_0)} dx_0 = \mathbb E_{x_0\sim p_{student}(x_0)} \int_{x_0} \log \frac{p_{student}(x_0)}{p_{teacher}(x_0)} dx_0.

这是典型的Reverse-KL的蒸馏Loss,其本身有一个显著的特性:

pteacher(x0)→0p_{teacher}(x_0)\to 0 ,如果 pstudent(x0)>0p_{student}(x_0) > 0 ,那就会有 Loss→+∞Loss \to +\infty

这意味着:对于student model生成的每一张图片 x0x_0 ,如果它不符合真实图片分布( pteacher(x0)→0p_{teacher}(x_0)\to 0 ),就会导致Loss爆炸。

因此,DMD2这类算法的本质思想是:不直接告诉student“应该模仿什么”,而是让student自己生成图片,然后让teacher model指导“哪里不对”。这种Reverse-KL Loss的设计可以显著提升生成图片的细节性和合理性,已经成为当下扩散步数蒸馏的主要策略。

热启动缓解分布退化

尽管Reverse-KL可以显著降低不合理样本的生成概率,其本身也存在严重的mode-collapse和分布过于锐化的问题[5]。具体表现在多样性降低,饱和度增加,形体增加等问题。这些问题在2步蒸馏的设定下变得尤为突出。为了缓解分布退化问题,常见做法是给模型一个更合理的初始化[6]。在这里我们使用PCM[7]蒸馏进行模型热启动。实验表明,热启动后的模型的形体扭曲问题得到明显改善。


对抗学习引入真实数据先验

如上文所述,DMD2本质上是“学生生成—>教师指导”,蒸馏过程不依赖真实数据,这种做法有优有劣:

  • ✅ 优势:极大提升方案普适性(高质量真实数据难获取);
  • ⚠️ 局限:设定了天然上限——student永远学习teacher的生成分布,无法超越teacher。

同时由于loss设计的问题,DMD2蒸馏在高质量细节纹理(如苔藓、动物毛发等)上生成的效果往往差强人意,如下图所示。



为了增强2步student model在细节上的表现能力,我们引入了对抗学习(GAN)来进一步提升监督效果。GAN的Loss可以拆解为:

生成Loss(让生成图骗过判别器):Lossgen(x0)=log⁡D(x0)Loss_{gen}(x_0) = \log D(x_0)

判别Loss(区分真假图): Lossdis(x0)=log⁡D(xreal)−log⁡D(x0)Loss_{dis}(x_0) =\log D(x_{real}) -\log D(x_0)

这里 x0x_0 是student生成的图片, xrealx_{real} 是训练集中引入的真实数据, D(⋅)D(\cdot) 是判别器根据输入样本判断其为真实数据的概率。简单来说,对抗训练一方面需要判别器尽可能判定student model生成的图片为假,另一方面有需要student model尽可能的欺骗判别器。为了提升对抗训练的稳定性和效果,我们做了如下改进:

  1. 真实数据混合策略:按固定比例混合高质量真实数据和teacher生成图,提升泛化度和训练稳定性;
  2. 特征提取器引入:使用额外的DINO模型作为feature extractor,提供更鲁棒的特征表示;
  3. Loss权重调整:增加对抗训练在loss中的占比。

经实验验证,增加对抗训练后,student model的画面质感和细节表现显著提升:


从应用效果出发,细节决定成败

极少步数扩散生成一直是一个重要的方向,然而,单一算法方案受限于其本身的原理设计,往往存在一些不尽如人意的问题。团队正是从落地效果出发,逐个发现并分析蒸馏带来的效果问题(如扭曲、纹理确实)并针对性解决,才能使得最后的2步生成模型达到工业场景可落地的水准。

然而,尽管在大多数场景下Wuli-Qwen-Image-Turbo能够和原模型比肩,在一些复杂场景下,受限于去噪步数,仍存在可改进空间。团队在后续的release中将会持续发布速度更快、效果更好的生成模型。

持续迭代,拥抱开源

接下来,团队将持续推出并迭代更多扩散加速技术,并开源模型权重,期待与开源社区共同成长。我们的所有技术都会同步在呜哩AI平台上线,无论你是专业设计师、内容创作者,还是AI爱好者,呜哩都能让你的创意即刻成像。


团队介绍:阿里巴巴智能引擎,是阿里 AI 工程系统的建设者与维护者。团队聚焦于大模型全链路工程能力建设,持续优化研发范式,专注大模型训推性能优化、引擎平台、Agent 应用平台等关键组件,为集团各业务提供高效稳定的 AI 工程基础设施。团队坚持开放共享的技术文化,贡献了Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL 等优秀开源项目,与行业共赢共进。


参考文献

[1] Progressive Distillation for Fast Sampling of Diffusion Models

[2] Consistency Models

[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY

[4] Improved Distribution Matching Distillation for Fast Image Synthesis

[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence

[6] Transition Matching Distillation for Fast Video Generation

[7] Phased Consistency Models


目录
相关文章
|
19天前
|
人工智能 自然语言处理 物联网
Qwen-Image 从推理到 LoRA 训练实战教程(AMD GPU × DiffSynth-Studio)
本课程由魔搭社区出品,详解如何在AMD GPU上基于DiffSynth-Studio框架高效部署、微调与训练Qwen-Image系列大模型(860亿参数)。涵盖文生图推理、LoRA画质增强、多语言提示理解、高一致性人像外延及多图融合编辑,并支持从零训练专属LoRA(如定制狗狗生成)。
529 40
|
23天前
|
人工智能 开发者
Qwen-Image又登顶啦!
Qwen-Image-2512登顶Hugging Face趋势榜榜首,并在AI Arena稳居最强开源图像模型!新发布的Qwen-image-edit-202511也在Chatbot Arena获开源第一、全球第九。双榜佳绩,技术再突破!
202 0
|
10天前
|
机器学习/深度学习 自然语言处理 算法
RAG 文档切分攻略:做好这步,检索精度提升 50%
本文深度解析RAG系统中易被忽视却至关重要的文档切分环节,系统拆解固定长度、语义结构化、混合切分三大方法,结合片段长度、重叠率、元数据标注等5大实操技巧与典型场景案例,助你避开常见陷阱,显著提升检索精度与大模型回答质量。
|
26天前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
814 1
|
3天前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
101 8
|
5天前
|
边缘计算 人工智能 物联网
Ultralytics YOLO26来啦!5种尺寸全家桶,速度与精度兼顾
Ultralytics发布YOLO26,系列迄今最先进、易部署的模型,支持分类、检测、分割、姿态估计等多任务。五种尺寸灵活适配边缘设备,CPU推理提速43%,首创无NMS端到端推理,移除DFL提升兼容性,已上架魔搭社区。(239字)
116 13
|
18天前
|
机器学习/深度学习 测试技术 API
阿里云分布对齐的序列蒸馏实现卓越的Long CoT推理能力,登顶Hugging Face趋势榜!
阿里云飞天实验室发布DASD推理蒸馏技术,开源DASD-4B/30B-Thinking模型及高质量训练数据。创新提出温度调节学习、差异感知采样与混合策略蒸馏三大技术,仅用44.8万样本即在AIME25(83.3)、LCB v5(69.3)、GPQA-D(68.4)等基准上超越同尺寸甚至更大模型,数据集登顶Hugging Face趋势榜Top5。
184 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
构建AI智能体:九十、图解大模型核心三大件 — 输入编码、注意力机制与前馈网络层
本文深入解析了大模型三大核心技术:输入编码、多头自注意力机制和前馈网络层,从应用视角阐述了它们的工作原理和协同效应。输入编码负责将文本转换为富含语义和位置信息的数学表示;多头自注意力机制通过多专家团队模式建立全局依赖关系,解决长距离依赖问题;前馈网络层则通过非线性变换进行深度语义消歧。文章通过可视化示例展示了词向量的语义关系建模、注意力权重的分布模式以及前馈网络的语义过滤功能,形象地说明了大模型如何通过这三层架构实现"广泛联系-深度加工"的认知过程。
166 5
|
11天前
|
人工智能 边缘计算 分布式计算
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
阶跃星辰发布开源大模型Step 3.5 Flash:专为Agent设计,推理速度达350 TPS,支持256K长上下文,采用稀疏MoE+MTP-3+混合注意力架构,在数学与Agent任务上媲美闭源模型,现已全量开放使用。
219 2

热门文章

最新文章