AI拖动改图项目火热上线,亲测效果分享!

简介: AI拖动改图项目火热上线,亲测效果分享!

这两天有一个AI拖动改图的项目特别火,看官方分享的演示视频,效果特别震撼!

1689160751472.png

为了获取第一手的真实体验,我也第一时间部署了这个项目,并实际体验了一下。

坦白的说,它的实际效果和演示视频还是有些差距的,操作上并没有那么顺滑,一是自动生成的UI,交互体验不太友好,二是它对计算资源的要求比较高,如果机器不行会比较卡。对项目比较熟悉的大佬在回应网友时也说到这只是一个研究项目,和商用产品还有比较大的差距。

不过这个工具确实能解决一些问题,比如想给照片中的人或者动物换个优美的姿势,以及重新设计产品的外观等。也许再经过一段时间的迭代,它就能像AI绘图一样让大家爱不释手了。所以,我还是详细分享下我的体验过程,也给想尝试的同学提供一个参考。

安装说明

这个项目是在Github上开源的,本质是基于生成对抗网络的深度学习模型,访问地址:github.com/XingangPan/…

一开始我本来打算自己搭建环境部署,但是总遇到各种问题,折腾了几下就放弃了,后来在项目的Issues讨论区中看到有Google Colab版本,所以就直接拿过来跑了。

这是我的notebook,大家可以直接拷贝运行:colab.research.google.com/drive/1Cah5…

代码很简单,我这里简单介绍下:

!git clone  https://huggingface.co/spaces/radames/DragGan/
!pip install -r /content/DragGan/requirements.txt
%cd  /content/DragGan
!python  visualizer_drag_gradio.py --share

首先是从huggingface拷贝核心程序,由此可见大佬是在huggingface完成初次程序部署的;然后安装Gradio及其依赖的程序包;最后进入程序目录,启动程序。

这里为什么要装Gradio?首先这是一个让模型可视化的工具,方便我们进行调测;其次程序是在notebook中运行的,默认只能本机访问,Gradio可以做一个内网穿透,这样我们就可以在本地的浏览器操作。

为了给没操作过Google Colab的同学一些指引,我这里说下如何启动Notebook。

进入Notebook后,首先点击右上角这里的“连接”,Notebook就会自动创建服务器并启动它。

1689160850473.png

服务器启动成功后,这里会显示内存和磁盘的监控缩略图:

1689160889706.png

点击右侧的这个小箭头,在打开的下拉菜单中点击“查看资源”,就可以看到内存、GPU和磁盘的情况:

1689160921144.png

注意上图中的“GPU RAM”,这个代表显卡的显存使用情况,如果你的资源中没有这个项目,说明没有启用GPU,需要点击页面下方的“更改运行时类型”,在这里选择“硬件加速器”为GPU,GPU类型选择T4,如果付费了可以选择更好的。

1689160962624.png

程序启动成功后,日志这里会输出外网可以访问的Gradio地址,直接点击就会在浏览器打开。

1689160991860.png

使用说明

在打开的浏览器页面中,你会看到类似下图的一个页面:左边是一些控制参数和操作按钮,右边是待处理的图片区域。

1689161027889.png


这里我们做一个使用演示:

在页面的左上角,Pretrained Model 这里,我们选择 “stylegan2_dogs_1024_pytorch”,这是一些狗狗的预训练模型。模型选中后,右边就会加载一张狗狗的图片,这个图片是随机的。调整左侧的“See点”可以更换图片。

我这里的这个狗狗目光看向右边,我想让他把头扭过来,看着观众,这样可以增加一些亲近感!

具体操作步骤是:

1、在图片上点击想要拖拽的地方,点击完毕后,程序会进行一次处理,等待处理完毕,会显示一个红色的点。

2、在图片上点击要拖动到的地方,点击完毕后,程序还是会进行一次处理,等待即可,最后会显示一个蓝色的点。

1689161069310.png

3、点击Mask区域的“Edit Flexible Area”,点击完毕后,程序会进行一次处理,等待处理完毕。

1689161105381.png

4、然后我们点击图片右上角这个笔刷的按钮,把笔刷调整的大些,这样比较好涂抹。

1689161132493.png

5、然后涂抹,把狗狗的头部遮盖住,这一步的目的就是让拖动效果只影响遮盖的部分。

1689161216157.png

6、然后点击“Start”,开始拖拽调整。

1689161245468.png

可以看到图像会一步步接近我们的拖放点。

1689161413295.png

7、这个调整程序有时候长时间停不下来,可以点击“Stop”按钮停止运行,也可以刷新页面重载程序。

1689161446678.png

8、如果调整的效果不满意,可以多次调整,直到调整到最佳位置。

我这里技巧掌握的还不是很好,调整出来有点怪。

1689161478496.png

以上就是本文的主要内容了,从我的实际体验来说,比较卡,没有官宣的那么丝滑,可能是因为显卡的能力不够,有更好显卡的同学可以再试试,还有一部分原因是UI交互设计上的问题,每点一下图片部分都要重绘,加上网络传输,每次操作都要消耗若干秒或十几秒,应该可以合并一些前端操作再发到后端处理。

因本人能力有限,不免出现错漏,欢迎指正,感谢你的阅读。后续我会继续分享AI应用方面的东西,大家有兴趣的及时加我关注(微信公众号:萤火遛AI),以免错过精彩内容。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
3月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
1383 133
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
3月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
本文介绍如何在Spring AI中自定义Advisor实现日志记录、结构化输出、对话记忆持久化及多模态开发,结合阿里云灵积模型Qwen-Plus,提升AI应用的可维护性与功能性。
720 125
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1620 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
3月前
|
人工智能 测试技术 项目管理
测试不再碎片化:AI智能体平台「项目资料套件」功能上线!
在实际项目中,需求文档分散、整理费时、测试遗漏等问题常困扰测试工作。霍格沃兹推出AI智能体测试平台全新功能——项目资料套件,可将多个关联文档打包管理,并一键生成测试用例,提升测试完整性与效率。支持套件创建、文档关联、编辑删除及用例生成,适用于复杂项目、版本迭代等场景,助力实现智能化测试协作,让测试更高效、更专业。
|
3月前
|
存储 人工智能 测试技术
用AI提升测试效率:智能体平台的「需求文档管理」功能上线啦!
霍格沃兹测试开发学社推出AI智能体测试平台,全新「需求文档管理」功能助力高效测试准备。集中管理需求文档,支持多种上传方式,智能生成测试用例,提升测试效率与准确性,助力迈向智能化测试新时代。
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
425 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
4月前
|
人工智能 IDE 开发工具
通义灵码 AI IDE使用体验(3)项目优化及bug修复
本文介绍了使用通义灵码 AI IDE进行项目重构与优化的全过程,涵盖页面调整、UI更新、功能修复等内容,并展示了多次优化后的成果与仍存在的问题。
393 0
|
人工智能 自然语言处理 IDE
通义灵码 AI IDE使用体验(1)项目初创
通义灵码 AI IDE上线,作为AI IDE的重度使用者怎能错过?本文详细体验了从安装到项目开发的全过程,界面友好,操作简便,支持智能问答、文件编辑、智能体三种模式。通过智能体方式快速开发项目,自动规划功能、管理环境,虽在复杂项目中仍有提升空间,但整体体验流畅,适合开发者尝试。
909 0
|
5月前
|
人工智能 安全 大数据
硬核来袭!「AI 进化论:智算时代 OS 的破局之路」首期直播上线
从学术前沿到企业实践,从技术演进到生态共建,深度拆解 AI 时代操作系统的挑战与机遇,揭秘阿里云服务器操作系统背后的技术沉淀与产品布局。
|
5月前
|
人工智能 自然语言处理 数据可视化
AI 助手带你玩转数据分析!通义灵码保姆级教学 | 共学课2期上线
7月15日20:00,通义灵码联合WaytoAGI社区推出《AI助手带你玩转数据分析》公开课。零门槛、零代码,只需中文指令,即可完成数据读取、分析到报告生成全流程。告别代码恐惧,业务人员也能轻松掌握数据分析,提升职场竞争力。
234 0