「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了

简介: 「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了



在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖迭代推理,虽然此方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,这是 GAN 式微的原因之一。

当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。

其中,来自马克斯普朗克计算机科学研究所、MIT CSAIL 和谷歌等机构的研究者们提出了一种强大的控制 GANs 的方式,即以用户交互的方式拖动图像的任何关键点以精确到达目标点。

为了实现这一点,该研究提出了 DragGAN,它包含两个主要组成部分:1)基于特征的运动监督,用于驱动关键点向目标位置移动;2)一种新的点追踪方法,利用 GAN 的特征来定位关键点的位置。

通过 DragGAN,任何人都可以精确控制像素的移动位置来变形图像,从而操控各种空间属性,如动物、汽车、人类、风景等的姿态、形状、表情和布局。由于这些操控在 GAN 的生成图像流形上进行,因此 DragGAN 可以生成被遮挡的内容和以及保证物体的形变符合物体的结构。定性和定量比较都表明,DragGAN 在图像操控和点追踪任务上优于先前的方法。此外,该研究还展示了通过 GAN 重建操控真实图像的例子。

为了让大家更好的了解这一研究,机器之心最新一期线上分享邀请到了 DragGAN 论文第一作者潘新钢,通过本次分享,大家可以更深入的了解这一项研究。

相关文章
|
机器学习/深度学习 数据可视化 算法
深度学习之梯度下降参数可视化
深度学习之梯度下降参数可视化
|
关系型数据库 MySQL Linux
Centos7升级openssl,超详细
Centos7升级openssl,超详细
2973 0
|
4月前
|
网络安全 数据安全/隐私保护 Windows
分享5款小众且无广告的小工具
推荐5款小众无广告软件:Krita(绘图)、WinSCP(文件传输)、燃精灵(微信检测)、GIDOT TYPESETTER(排版)、Sketchable(手绘笔记),功能强大且专注,提升创作与工作效率。
269 0
|
10月前
|
消息中间件 缓存 弹性计算
纯PHP+MySQL手搓高性能论坛系统!代码精简,拒绝臃肿
本内容分享了一套经实战验证的社交系统架构设计,支撑从1到100万用户的发展,并历经6次流量洪峰考验。架构涵盖客户端层(App、小程序、公众号)、接入层(API网关、负载均衡、CDN)、业务服务层(用户、内容、关系、消息等服务)、数据层(MySQL、Redis、MongoDB等)及运维监控层(日志、监控、告警)。核心设计包括数据库分库分表、多级缓存体系、消息队列削峰填谷、CQRS模式与热点数据动态缓存。同时提供应对流量洪峰的弹性伸缩方案及降级熔断机制,并通过Prometheus实现全链路监控。开源建议结构清晰,适合大型社交平台构建与优化。
399 11
|
4月前
|
机器学习/深度学习 传感器 人工智能
拔俗AI预警数字化系统:让风险“看得见、防得住”的数字化哨兵
AI预警系统是企业的“数字哨兵”,通过机器学习实时分析海量数据,自动识别异常、提前预警风险,将传统“事后救火”变为“事前防火”。它更早发现、更准判断、持续进化,助力企业实现主动防御,守护业务稳定。
329 0
|
10月前
|
消息中间件 人工智能 运维
乐言科技:云原生加速电商行业赋能,云消息队列助力降本 37%
乐言科技依托云原生架构及阿里云云原生产品体系,实现基础设施与业务解耦以及弹性调度,在提升业务稳定性的同时,显著增加研发效能并降低运维成本,加速电商客户定制化需求交付,推动云计算与 AI 技术在电商领域的深度融合。
655 101
|
监控 供应链 前端开发
浏览器拨测:将网站护航的阵地再前推一米
近年来,针对网站的攻击形式愈发多样,手段也变得更加隐蔽,使用浏览器拨测来监控服务的整个生命周期有助于及时发现攻击,保护核心业务链路不受损。阿里云监控浏览器拨测使用真实的浏览器进行拨测,通过提供丰富的断言能力和脚本录制能力护航服务的全生命周期和核心业务链路,助力开发者更好地监控服务的可用性,消除潜在风险。
536 125
浏览器拨测:将网站护航的阵地再前推一米
|
11月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
713 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
监控 算法 编译器
初识 Verilog HDL , 什么是verilog HDL?
这是一篇关于Verilog HDL的学习笔记摘要。Verilog是一种硬件描述语言,用于数字系统的多层抽象设计,包括行为、数据流和结构。设计流程包括功能设计、Verilog描述、软件模拟、逻辑综合和硬件实现。模块是Verilog的基本单元,代表逻辑实体,通过并行运行和分层连接实现复杂系统。模块包含端口列表和定义,通过模块调用(实例化)实现子模块连接。Verilog的参数声明和预处理指令(如`define、`include和`timescale)增加了代码的可读性和灵活性。笔记指出Verilog与C语言有相似之处,易于学习。
|
人工智能 JavaScript API
suno-api
suno-api
1106 1