ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配

简介: 香港大学与Adobe联合研发的ObjectMover模型,通过视频生成先验迁移技术,实现图像中物体的自然移动、删除和插入,自动保持光影一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 「PS修图师颤抖吧!这个AI连物体影子都能自动补光,港大黑科技炸场」

大家好,我是蚝油菜花。当同行还在用仿制图章工具手动补光影时,这个由香港大学与Adobe联合研发的模型,已经让图像编辑进入「指哪打哪」的智能时代!

你是否被这些修图噩梦折磨过——

  • 👉 移动花瓶后,桌面反光像被狗啃过一样突兀
  • 👉 删除路人甲,地面阴影却留下人形空洞
  • 👉 插入新物体时,光照角度总像来自异次元...

今天要解剖的 ObjectMover ,正在重定义图像编辑!这个基于视频生成迁移学习的AI手术刀,用三大绝技让后期效率飙升:

  • 物理规律全自动:移动物体时,连带影子/反光/折射同步智能调整
  • 跨场景泛化王:在游戏引擎合成的百万级数据中学会「光线的语言」
  • 多任务通吃:移除/插入/移动三合一,商业级效果直出

已有电影团队用它重制经典场景,电商公司靠它批量生成产品场景图——你的PS工具栏,是时候迎接这位「光影魔术师」了!

🚀 快速阅读

ObjectMover是香港大学与Adobe联合开发的图像编辑模型。

  1. 功能:实现物体移动/删除/插入时的自动光影匹配
  2. 原理:将图像编辑视为视频帧生成任务,迁移视频模型的跨帧一致性能力

ObjectMover 是什么

ObjMover-demo

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,专门解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。该模型将物体移动视为两帧视频的特殊案例,创新性地利用了预训练视频生成模型的跨帧一致性学习能力。

通过微调技术将视频生成模型迁移到图像编辑任务,ObjectMover采用序列到序列的建模方式。其输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像,在保持物体身份特征的同时,实现了物理效果的自然过渡。

ObjectMover 的主要功能

  • 物体移动:可将图像中的物体移动到指定位置,自动调整相关的物理效果,如光照、阴影、反射等,同时保持物体的身份特征
  • 物体删除:能真实地填充被移除物体的背景,非生成不相干的新物体,准确地移除与物体相关的光影
  • 物体插入:能精准保持被插入物体的身份特征,自动生成与环境一致的光影效果

ObjectMover 的技术原理

  • 视频先验迁移:将物体移动任务视为两帧视频案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力
  • 序列到序列建模:输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像,形成端到端处理流程
  • 合成数据集构建:使用现代游戏引擎生成高质量合成数据对,覆盖复杂光照、材质和遮挡场景
  • 多任务学习策略:结合物体移动、移除、插入及视频数据插入四个子任务,提升模型泛化能力

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
人工智能 数据可视化 C++
Math24o:SuperCLUE开源的高中奥数推理测评基准,85.71分屠榜
Math24o是首个针对高中奥林匹克数学竞赛的中文大模型测评基准,采用2024年预赛真题实现自动化评估,为模型数学推理能力提供客观衡量标准。
303 48
Math24o:SuperCLUE开源的高中奥数推理测评基准,85.71分屠榜
|
9月前
|
人工智能 图形学
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。
291 15
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
|
9月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
1133 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
9月前
|
人工智能 搜索推荐 图形学
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
阿里巴巴通义实验室推出的ChatAnyone框架,通过高效分层运动扩散模型和混合控制融合技术,实现高保真度、自然度的实时肖像视频生成。
354 13
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
|
8月前
|
人工智能 编解码
导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成
Seaweed-7B是字节跳动推出的70亿参数视频生成模型,支持从文本、图像或音频生成高质量视频内容,具备长镜头生成、实时渲染等先进特性,通过优化架构显著降低计算成本。
401 10
导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成
|
9月前
|
人工智能 算法 语音技术
Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动
清华大学与腾讯联合推出的Video-T1技术,通过测试时扩展(TTS)和Tree-of-Frames方法,显著提升视频生成的连贯性与文本匹配度,为影视制作、游戏开发等领域带来突破性解决方案。
320 4
Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。
853 18
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
|
9月前
|
机器学习/深度学习 人工智能 前端开发
魔搭社区模型速递(3.23-3.29)
🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。
398 4
魔搭社区模型速递(3.23-3.29)
|
9月前
|
人工智能 并行计算 PyTorch
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
TripoSR是由Stability AI和VAST联合推出的开源3D生成模型,能在0.5秒内从单张2D图像快速生成高质量3D模型,支持游戏开发、影视制作等多领域应用。
523 13
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
|
8月前
|
人工智能
Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技
Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架,通过法线图中间表示实现细节丰富的3D模型生成,其双阶段生成流程显著提升了几何保真度。
790 32
Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技

热门文章

最新文章