港大阿里“视觉AI任意门”,一键向场景中无缝传送物体

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 本文主要展示了阿里和港大的AI版「任意门」,实现零样本的图像嵌入。

点两下鼠标,就能把物体无缝「传送」到照片场景中,光线角度和透视也能自动适应。

阿里和港大的这个AI版「任意门」,实现了零样本的图像嵌入。

有了它,网购衣服也可以直接看上身效果了。

因为功能和任意门十分相似,所以研发团队给它起的名字就叫AnyDoor。

AnyDoor一次能够传送多个物体。

不仅如此,它还能移动图像里的已有物品。

有网友看了之后赞叹到,或许接下来就会进化到(把物体传入到)视频了。

零样本生成逼真效果

相对于已有的类似模型,AnyDoor具有零样本操作能力,无需针对具体物品调整模型。

除了这些需要进行参数调节的模型之外,AnyDoor相对于其他Reference类模型也更为准确。

实际上,其他的Reference类模型只能做到保持语义一致性。

通俗地说,如果要传送的物体是一只猫,其他模型只能保证结果中也有一只猫,但相似度无法保证。

我们不妨把AnyDoor的效果放大看看,是不是看不出什么破绽?

用户评价的结果也证实,AnyDoor在质量和准确度方面表现均优于现有模型(满分4分)。

而对于已有图像中物体的移动、换位,甚至改变姿态,AnyDoor也能出色完成。

那么,AnyDoor是如何实现这些功能的呢?

工作原理

要想实现物体的传送,首先就要对其进行提取。

不过在将包含目标物体的图像送入提取器之前,AnyDoor首先会对其进行背景消除。

然后,AnyDoor会进行自监督式的物体提取并转换成token。

这一步使用的编码器是以目前最好的自监督模型DINO-V2为基础设计的。

为了适应角度和光线的变化,除了提取物品的整体特征,还需要额外提取细节信息。

这一步中,为了避免过度约束,团队设计了一种用高频图表示特征信息的方式。

将目标图像与Sobel算子等高通滤波器进行卷积,可以得到含高频详情的图像。

同时,AnyDoor利用Hadamard对图像中的RGB色彩信息进行提取。

结合这些信息和过滤边缘信息的遮罩,得到了只含高频细节的HF-Map。

最后一步就是将这些信息进行注入。

利用获取到的token,AnyDoor通过文生图模型对图像进行合成。

具体来说,AnyDoor使用的是带有ControlNet的Stable Diffusion。

AnyDoor的工作流程大致就是这样。而在训练方面,也有一些特殊的策略。

△AnyDoor使用的训练数据集

尽管AnyDoor针对的是静态图像,但有一部分用于训练的数据是从视频当中提取出来的。

对于同一物体,视频当中可以提取出包含不同背景的图像。

将物体与背景分离后标注配对,就形成了AnyDoor的训练数据。

不过虽然视频数据有利于学习,但还存在质量问题需要解决。

于是团队设计了自适应时间步采样策略,在不同时刻分别采集变化和细节信息。

通过消融实验结果可以看出,随着这些策略的加入,CLIP和DINO评分均逐渐升高。

团队简介

论文的第一作者是香港大学博士生陈汐(Xi Chen),他曾经是阿里巴巴集团算法工程师。

陈汐的导师Hengshuang Zhao是本文的通讯作者,研究领域包括机器视觉、机器学习等。

此外,阿里方面还有来自达摩院、菜鸟集团的研究人员也参与了这一项目。

论文地址:

https://arxiv.org/abs/2307.09481


本文转发自量子位公众号。

相关文章
|
16天前
|
存储 人工智能 自然语言处理
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。
142 12
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
|
29天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
62 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
2天前
|
人工智能 IDE 程序员
与1.0 相比,通义灵码 2.0 AI 程序员有哪些功能、亮点、优势、场景?
通义灵码2.0相比1.0新增了工程级编码任务、单元测试生成和图片多模态问答等功能,支持多文件代码修改、批量生成单元测试及根据图片内容生成代码建议。亮点包括支持主流IDE、垂直智能体覆盖更多场景、企业级检索增强和灵活对话交互体验。技术优势涵盖多模态上下文感知、快速推理、企业数据个性化及一流代码生成效果。典型应用场景有新功能开发、跨语言编程、单元测试自动生成和错误排查修复。
83 4
|
25天前
|
人工智能 缓存 Ubuntu
AI+树莓派=阿里P8技术专家。模拟面试、学技术真的太香了 | 手把手教学
本课程由阿里P8技术专家分享,介绍如何使用树莓派和阿里云服务构建AI面试助手。通过模拟面试场景,讲解了Java中`==`与`equals`的区别,并演示了从硬件搭建、语音识别、AI Agent配置到代码实现的完整流程。项目利用树莓派作为核心,结合阿里云的实时语音识别、AI Agent和文字转语音服务,实现了一个能够回答面试问题的智能玩偶。课程展示了AI应用的简易构建过程,适合初学者学习和实践。
88 22
|
21天前
|
存储 人工智能 NoSQL
Tablestore深度解析:面向AI场景的结构化数据存储最佳实践
《Tablestore深度解析:面向AI场景的结构化数据存储最佳实践》由阿里云专家团队分享,涵盖Tablestore十年发展历程、AI时代多模态数据存储需求、VCU模式优化、向量检索发布及客户最佳实践等内容。Tablestore支持大规模在线数据存储,提供高性价比、高性能和高可用性,特别针对AI场景进行优化,满足结构化与非结构化数据的统一存储和高效检索需求。通过多元化索引和Serverless弹性VCU模式,助力企业实现低成本、灵活扩展的数据管理方案。
58 12
|
21天前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
|
22天前
|
人工智能 缓存 安全
每一个大模型应用都需要一个 AI 网关|场景和能力
本次分享的主题是每一个大模型应用都需要一个 AI 网关|场景和能力。由 API 网关产品经理张裕(子丑)进行分享。主要分为三个部分: 1. 企业应用 AI 场景面临的挑战 2. AI 网关的产品方案 3. AI 网关的场景演示
|
22天前
|
存储 Serverless 文件存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
24天前
|
存储 人工智能 数据管理
云端问道17期方案教学-AI场景下的对象存储OSS数据管理实践
本文介绍了AI场景下的对象存储OSS数据管理实践,由阿里云技术专家明锦分享。主要内容分为两部分:1) AI场景下对象存储实践方案,包括对象存储的应用、优势及在模型推理中的优化;2) OSS常用工具介绍,如OSSFS、Python SDK、Go SDK等,并详细说明了这些工具的特点和使用场景。文中还探讨了不同模式下的性能优化,以及即将推出的OS Connector for AI/ML工具,旨在提升数据下载速度和IO性能。

热门文章

最新文章