备案控制台

开发者社区视觉智能文章正文

多种模态控制的背景生成技术

2023-09-08 322

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，图像资源包5000点

简介： 在保持输入主体不变的情况下生成背景的需求广泛存在，可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术，背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式，这些引导方式可以组合使用，灵活的控制生成背景的内容。该模型具有很好的通用性，对主体内容无限制，适用各种不同的图像主体，例如各类商品、动物甚至人像等。

一、简介

在保持输入主体不变的情况下生成背景的需求广泛存在，可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术，背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式，这些引导方式可以组合使用，灵活的控制生成背景的内容。该模型具有很好的通用性，对主体内容无限制，适用各种不同的图像主体，例如各类商品、动物甚至人像等。

二、模型结构

首先输入需要生成背景的主体, 使用一种或者多种引导方式来控制生成的背景内容。

三、效果展示

四、生成引导方式

1. 图像引导

使用图像来引导控制背景生成的内容，适用于手头已有合适的图像，想要为主体生成类似的背景。可以免去写文本prompt的烦恼，所见即所得。

引导图像：

生成效果：

2. 文字引导

引导文本: 光滑桌面，窗外有山有水

3. 图像+文字引导

引导图像：

仅图像引导效果：

增加引导文本: 远处有晚霞

图像+文本引导效果如下：

4. 使用边缘进行精确的空间控制

图像引导和文本引导都能对背景的整体环境内容、风格有较好的引导效果。如果需要需要对背景元素的位置形状进行精确的控制，就需要使用呢边缘edge进行生成控制。

引导文本：鲜花盛开。引导图像和引导边缘如下：

生成效果：

还可以设置边缘引导图层到主体图层的上面，形成更加逼真的遮挡效果：

lllcho

目录

相关文章

楠竹11

|

8月前

|

人工智能搜索推荐

未来多种模型组合是AIGC更可能的方向

【1月更文挑战第10天】未来多种模型组合是AIGC更可能的方向

楠竹11

113 1 1

未来多种模型组合是AIGC更可能的方向

蚝油菜花

|

15天前

|

人工智能自然语言处理并行计算

VITRON：开源像素级视觉大模型，同时满足图像与视频理解、生成、分割和编辑等视觉任务

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型，支持图像与视频的理解、生成、分割和编辑，适用于多种视觉任务。

蚝油菜花

83 13 13

VITRON：开源像素级视觉大模型，同时满足图像与视频理解、生成、分割和编辑等视觉任务

蚝油菜花

|

20天前

|

人工智能自然语言处理

DynamicControl：腾讯推出动态地条件控制图像生成框架，结合了多模态大语言模型的推理能力和文生图模型的生成能力

DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架，通过自适应选择不同条件，显著增强了图像生成的可控性。

蚝油菜花

56 11 11

DynamicControl：腾讯推出动态地条件控制图像生成框架，结合了多模态大语言模型的推理能力和文生图模型的生成能力

蚝油菜花

|

1月前

|

机器学习/深度学习人工智能

Leffa：Meta AI 开源精确控制人物外观和姿势的图像生成框架，在生成穿着的同时保持人物特征

Leffa 是 Meta 开源的图像生成框架，通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本，适用于多种扩散模型，展现了良好的模型无关性和泛化能力。

蚝油菜花

79 11 11

Leffa：Meta AI 开源精确控制人物外观和姿势的图像生成框架，在生成穿着的同时保持人物特征

蚝油菜花

|

1月前

|

机器学习/深度学习人工智能编解码

OminiControl：AI图像生成框架，实现图像主题控制和空间精确控制

OminiControl 是一个高度通用且参数高效的 AI 图像生成框架，专为扩散变换器模型设计，能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数（0.1%），支持主题驱动控制和空间对齐控制，适用于多种图像生成任务。

蚝油菜花

78 10 10

OminiControl：AI图像生成框架，实现图像主题控制和空间精确控制

游客5wgpwz4lyt4j6

|

2月前

|

算法物联网开发者

In-Context LoRA实现高效多任务图像生成，开启视觉创作新篇章

这篇文章介绍了通义实验室提出的In-Context LoRA，这是一种基于现有文本到图像模型的任务无关性框架，用于实现高质量的多任务图像生成。

游客5wgpwz4lyt4j6

200 11 11

In-Context LoRA实现高效多任务图像生成，开启视觉创作新篇章

楠竹11

|

2月前

|

机器学习/深度学习人工智能自然语言处理

大模型引领6G革命！最新综述探索未来通信方式：九大方向，覆盖多模态、RAG等

随着科技发展，大模型在6G网络中展现出革命性潜力。近日，arXiv发布综述论文《大模型在电信领域的全面调查》，探讨了大模型在通信领域的应用，涵盖生成、分类、优化、预测等方向，同时指出了数据隐私、计算资源及模型可解释性等挑战。论文链接：https://arxiv.org/abs/2405.10825

楠竹11

53 5 5

Deephub

|

3月前

|

机器学习/深度学习人工智能自然语言处理

扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法

DGLM（Diffusion Guided Language Modeling）是一种新型框架，结合了自回归模型的流畅性和扩散模型的灵活性，解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案，并使用轻量级提示生成器将嵌入转化为软提示，引导自回归解码器生成文本。该方法无需微调模型权重，易于控制新属性，并在多个基准数据集上表现出色。实验结果显示，DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法，为可控文本生成提供了新的方向。

Deephub

67 10 10

扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法

不吃核桃

|

5月前

|

vr&ar

AIGC 3D宇宙问题之混合显示的定义如何解决

AIGC 3D宇宙问题之混合显示的定义如何解决

不吃核桃

25 0 0

楠竹11

|

8月前

|

机器学习/深度学习人工智能

论文介绍：PreFLMR——扩展细粒度晚期交互多模态检索器以提升知识视觉问答性能

【5月更文挑战第3天】PreFLMR是扩展的细粒度晚期交互多模态检索器，用于提升知识视觉问答（KB-VQA）性能。基于FLMR，PreFLMR结合大型语言模型和检索增强生成，增强准确性与效率。通过M2KR框架全面评估，PreFLMR展示出色性能，尤其在E-VQA和Infoseek等任务。然而，其在预训练阶段未充分训练知识密集型任务，且仍有优化训练方法和数据集混合比例的空间。[论文链接](https://arxiv.org/abs/2402.08327)

楠竹11

214 1 1

视觉智能

热门文章

最新文章

【OpenCV学习笔记 023】两种图像分割方法比较

Python黑科技：50行代码运用Python＋OpenCV实现人脸追踪+详细教程+快速入门+图像识别+人脸识别+大神讲解

视觉智能开放平台【商品理解】【图像识别】【图像分割】上线新算法啦！

阿里云图像识别Java调用示例参考

图像识别试验 - 字符验证码、车牌号、身份证号

视觉智能开放平台【文字识别】类目新增五个AI算法，快来看看吧~

深源恒际：图像识别技术助力企业VI系统管理规范化

YOLOv8改进 | 主干网络 | 增加网络结构增强小目标检测能力【独家创新——附结构图】

5款开源BI工具优缺点及介绍

‘通义万相’使用体验——令人惊艳的AI绘画创作大模型

平行云荣膺"阿里云产品生态伙伴合作攻坚奖""2022云栖科技创新奖"

代码可视化平台

如何使用OCR技术批量识别图片中的文字并重命名文件，OCR 技术批量识别图片中的文字可能出现的错误

vue使用iconfont图标

阿里云多模态数据信息提取解决方案评测报告

阿里云多模态数据信息提取技术解决方案评测

【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态？

uni-app开发AI康复锻炼小程序，帮助肢体受伤患者康复！

【一步步开发AI运动小程序】十六、AI运动识别中，如何判断人体站位？

【一步步开发AI运动小程序】十五、AI运动识别中，如何判断人体站位的远近？

相关课程

更多

AliPG的独特能力

模型融合方法概述

视觉AI技术体系及趋势概述

相关电子书

更多

复杂环境下的视觉同时定位与地图构建

快速变化背景下，组织如何保持过程的稳定性

快速变化背景下，组织如何保持过程的稳定性？

相关实验场景

更多

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

下一篇

阿里云开通OSS存储服务详细流程