ELITE项目原作解读:基于扩散模型的快速定制化图像生成

简介: ELITE项目原作解读:基于扩散模型的快速定制化图像生成


近年来,大规模预训练的扩散模型(如 Imagen、DALLE-2、Stable Diffusion)在图像生成方面取得了巨大进展,尤其是在文本到图像生成任务中。根据给定的文本,现有的大模型能够生成多样且逼真的图像。然而这些模型依然难以满足用户对于生成结果精细控制的需求,特别是生成特定视觉概念的要求。定制化文本到图像生成方法,如 Textual Inversion、Custom Diffusion 等通过将给定的视觉概念表示成文本嵌入,可以更方便地实现对特定概念的生成和编辑。然而这些方法通常基于优化的方式来学习文本嵌入,需要较长时间(几分钟至几十分钟)学习新概念,限制了其实际应用效果。

为了实现快速的定制化文本到图像生成,我们提出一种基于模型的方法 ELITE。首先,ELITE 利用全局编码网络将视觉概念直接映射到文本嵌入,并在训练时引入多层特征策略以提升文本嵌入的可编辑性。同时,ELITE 使用局部编码网络进行细节补充,以更好地平衡定制化生成的一致性和可编辑性。实验结果表明,ELITE 可以在极短的时间内(小于 0.1 秒)学习新的视觉概念,并可以进行高效的编辑。

机器之心最新一期线上分享邀请到了哈尔滨工业大学博士生魏于翔,为大家分享他们近期工作 ELITE。


分享主题:ELITE:基于扩散模型的快速定制化图像生成

分享嘉宾:魏于翔,哈尔滨工业大学博士生,主要研究方向为图像生成,曾在 CVPR, ICCV, ECCV 等会议上发表论文数篇。

分享摘要:ELITE 是一种基于模型的快速定制化文本到图像生成方法。其首先利用全局编码网络将视觉概念直接映射到文本嵌入,并结合局部编码网络对概念细节进行补充,以更好地平衡定制化生成的一致性和可编辑性。实验证明 ELITE 能够以极高的效率(<0.1秒)得到新的视觉概念,并可以高效快捷的编辑。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/elite

2)论文链接:

https://arxiv.org/abs/2302.13848

3)代码仓库:

https://github.com/csyxwei/ELITE

相关文章
|
测试技术 索引
Elasticsearch search after分页检索案例
Elasticsearch search after分页检索案例分享 The best elasticsearch highlevel java rest api-----bboss 1.准备工作 参考文档《高性能elasticsearch ORM开发库使用介绍》导入和配置es客户端 2.
5990 0
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
4646 0
|
5G
蜂窝网络
蜂窝网络
1865 1
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
1018 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
|
存储 关系型数据库 MySQL
PHP与MySQL动态网站开发:从基础到实践####
本文将深入探讨PHP与MySQL的结合使用,展示如何构建一个动态网站。通过一系列实例和代码片段,我们将逐步了解数据库连接、数据操作、用户输入处理及安全防护等关键技术点。无论您是初学者还是有经验的开发者,都能从中获益匪浅。 ####
|
人工智能
3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D
【6月更文挑战第25天】DreamTech的Direct3D是全球首个3D-DiT模型,革新3D生成,使用3D潜在扩散变换,无需多视图或SDS优化,提升效率与准确性。模型包含D3D-VAE(高效编码3D形状)和D3D-DiT(模拟3D潜在分布)。它结合语义和像素条件生成与输入图像一致的3D形状,在质量和泛化上超越现有技术。然而,实际应用还需解决特定场景适应性、优化问题及集成挑战。[链接](https://arxiv.org/abs/2405.14832)
343 4
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
1218 9
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
|
11月前
|
物联网 异构计算
高效部署通义万相Wan2.1:使用Gradio搭建WebUI体验实战
随着通义万相Wan2.1 在社区的热度持续上涨,魔搭创空间的体验Demo(https://modelscope.cn/studios/Wan-AI/Wan-2.1)已经排起长队。
2150 12
|
机器学习/深度学习 PyTorch TensorFlow
ONNX 与量化:提高模型效率
【8月更文第27天】随着人工智能技术的广泛应用,模型部署变得越来越重要。为了在资源受限的设备上运行复杂的机器学习模型,模型量化技术成为了一种有效的手段。Open Neural Network Exchange (ONNX) 作为一种开放格式,支持在不同框架之间交换训练好的模型,同时也支持模型量化。本文将探讨如何结合 ONNX 和模型量化技术来提高模型的效率,减少模型大小并加快推理速度。
2725 2
|
人工智能 自然语言处理 API
阿里云百炼平台上线首个最新文生图模型FLUX中文优化版
由Stable Diffusion团队推出的开源文生图模型FLUX风靡全球,其生成质量媲美Midjourney,被誉为“开源王者”。阿里云百炼平台首发FLUX中文优化版,提升了中文指令的理解与执行能力。开发者可直接在平台上体验并调用FLUX模型,且享有1000张图像的免费生成额度,有效期180天。无需额外部署,即可轻松利用这一先进模型创造高质量图像。
2685 0

热门文章

最新文章