新扩散模型OmniGen一统图像生成,架构还高度简化、易用

简介: 近期,一篇题为“OmniGen: Unified Image Generation”的论文介绍了一种新型扩散模型OmniGen,旨在统一图像生成任务。OmniGen架构简洁,无需额外模块即可处理多种任务,如文本到图像生成、图像编辑等。该模型通过修正流优化,展现出与现有模型相当或更优的性能,尤其在图像编辑和视觉条件生成方面表现突出。OmniGen仅含3.8亿参数,却能有效处理复杂任务,简化工作流程。尽管如此,OmniGen仍存在对文本提示敏感、文本渲染能力有限等问题,未来研究将继续优化其架构与功能。

近年来,大型语言模型(LLMs)在统一语言生成任务方面取得了显著成就,彻底改变了人机交互的方式。然而,在图像生成领域,一个能够处理各种任务的统一模型仍然是一个未被充分探索的领域。最近,一篇名为"OmniGen: Unified Image Generation"的论文提出了一种名为OmniGen的新扩散模型,旨在统一图像生成任务。

OmniGen的主要创新之处在于其架构的高度简化和易用性,以及其能够处理各种图像生成任务的能力。与现有的扩散模型(如Stable Diffusion)不同,OmniGen不需要额外的模块(如ControlNet或IP-Adapter)来处理不同的控制条件。

OmniGen不仅展示了文本到图像的生成能力,还能够支持各种下游任务,如图像编辑、主体驱动生成和视觉条件生成。此外,OmniGen还能够通过将它们转化为图像生成任务来处理经典的计算机视觉任务,如边缘检测和人体姿态识别。

OmniGen的架构非常简洁,消除了对额外文本编码器的需求。与现有的扩散模型相比,OmniGen更加用户友好,使复杂的任务能够通过指令完成,而不需要额外的预处理步骤(如人体姿态估计),从而大大简化了图像生成的工作流程。

由于在统一格式下进行学习,OmniGen能够有效地在不同的场景之间转移知识,处理未见过的任务和领域,并展示出新的能力。

OmniGen的架构由两个主要组件组成:一个变分自编码器(VAE)和一个预训练的大型Transformer模型。VAE用于从图像中提取连续的视觉特征,而Transformer模型则根据输入条件生成图像。

在输入方面,OmniGen可以接受任意形式的图像和文本输入,以支持各种任务。对于文本输入,OmniGen使用Phi-3的tokenizer进行处理,而对于图像输入,OmniGen使用一个简单的线性层将它们转换为潜在表示,然后使用线性嵌入将每个补丁转换为视觉标记。

在注意力机制方面,OmniGen修改了LLM中的常见因果注意力机制,将其与双向注意力结合使用。具体来说,OmniGen对序列中的每个元素应用因果注意力,但对每个图像序列内的元素应用双向注意力。这允许每个补丁关注同一图像中的其他补丁,同时确保每个图像只能关注之前出现的其他图像或文本序列。

OmniGen使用修正流(rectified flow)来优化模型参数。与DDPM(Denoising Diffusion Probabilistic Models)不同,修正流通过在噪声和数据之间进行线性插值来进行前向过程。OmniGen被训练为根据噪声数据、时间步长和条件信息直接回归目标速度。

在图像编辑任务中,OmniGen面临的一个挑战是模型可能会学习到一个意外的捷径,即简单地复制输入图像作为输出,以使相关的训练损失非常低。为了解决这个问题,OmniGen通过放大图像中发生变化的区域的损失来引导模型关注需要修改的区域。

OmniGen在多个图像生成任务上进行了评估,包括文本到图像生成、图像编辑、主体驱动生成和视觉条件控制。在所有这些任务上,OmniGen都展示了与现有模型相当或更好的性能。

在GenEval基准测试中,OmniGen与现有的图像生成模型进行了比较,并展示了与当前最先进的扩散模型相当的性能。值得注意的是,OmniGen只有3.8亿个参数,而SD3模型有12.7亿个参数。

在EMU-Edit数据集上,OmniGen与现有的图像编辑模型进行了比较,并展示了与当前最先进的模型相当的性能。

在DreamBench数据集上,OmniGen展示了比基于微调的方法更好的主体保真度和文本保真度。

在使用不同视觉条件(如分割掩码、Canny边缘地图、HED边缘地图和深度地图)的实验中,OmniGen展示了对这些条件的控制能力,并生成了与输入条件相似的图像。

尽管OmniGen在统一图像生成方面取得了显著的进展,但仍有一些限制和未来研究方向。

限制

  • 与现有的扩散模型一样,OmniGen对文本提示很敏感,通常需要详细的文本描述来生成高质量的图像。
  • OmniGen的文本渲染能力有限,能够处理短文本段,但不能准确生成长文本。
  • OmniGen生成的图像可能会包含错误的细节,尤其是小而精致的部分。
  • OmniGen不能处理未见过的图像类型(如用于表面法线估计的图像)。

未来研究方向

  • 通过在更多相关数据上训练模型来解决这些限制。
  • 探索OmniGen在其他图像生成任务和领域的应用。
  • 进一步优化OmniGen的架构和训练策略,以提高其性能和效率。

Paper: https://arxiv.org/pdf/2409.11340

目录
相关文章
|
20小时前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
14天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
6天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
2天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
2天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
2616 13
|
6天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3179 10
PPT合集|Flink Forward Asia 2024 上海站
|
19天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5883 16
|
1月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
2天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
291 23