加上Web UI,文本-图像模型Stable Diffusion变身绘图工具,生成艺术大片

简介: 加上Web UI,文本-图像模型Stable Diffusion变身绘图工具,生成艺术大片
对于艺术家和插图画家来说,这类绘图工具虽然省时省力,但如何保持自己的创作风格是一个大问题。


前段时间,来自慕尼黑大学和 Runway 的研究者,与Eleuther AI、LAION 等团队合作,共同开发了一种文本转图像模型 Stable Diffusion。这项研究入选CVPR 2022 Oral。

Stable Diffusion 可以在消费级 GPU 上的 10 GB VRAM 下运行,并在几秒钟内生成 512x512 像素的图像,无需预处理和后处理。

Stable Diffusion的生成效果是这样的。宇宙的演变:


生物的进化:


这成片质量妥妥达到了大片级别。试想一下,如果将Stable Diffusion的作图功能发展成为一种绘画工具,将其与Web UI相结合,会带来怎样的设计体验。现在,有这样一个项目,可以满足广大研究者的需求。



有了这个项目,没有系统学习UI知识的小伙伴,也可以上手操作。例如自己动手设计城堡,并且周围环境按自己喜好来设计:


在城堡外面安排一名侍卫,并让一位骑马的战士奔向城堡:


城堡上空的光线不好,想换种颜色,也以实现:


不过想要实现上述效果,还需要Gradio库,这是一个免费、开源的Python库,它允许用户为机器学习模型开发易于使用的可定制组件演示,还可以帮助用户构建一个可以互动的网络应用。

不过带有Gradio UI的原始脚本是由一位匿名用户编写的,现在该项目进行了一些修改:


借助这一项目,用户不再需要手动输入参数,需要做的是编写提示并调整滑块就可以了,其强大的设计工具,还可用于重新生成要更改的图像的特定部分,并且生成的图像失真少、质量还高。


该库还内置了GFPGAN选项,不到半秒就能修复失真人脸;此外还内置了RealESRGAN选项,用来提高图像的分辨率。

网友:文本转图像模型有利有弊

对于Stable Diffusion的这一应用,众多网友表示「赞极了」。

对于它的应用前景,更有人预测称,「未来几年用它做专辑封面将会变得更加疯狂。」

不过也有持相反意见的,认为「这是该技术对艺术家和插图画家有害的典型例子,他们不用付出太多天赋和努力就能生成不可思议的艺术图像。不过未来仍需要艺术家,只要他们将自己的风格融入到这些模型中。」

还有些网友认为,文本转图像有点像语言翻译领域正在经历的事情。借助机器学习模型生成的译文质量不一,然后译者对译文进行润色编辑。而由于生成的图像具有各种各样的伪影,艺术家们可能要做更多的修饰工作。


image.png

相关文章
|
7月前
|
机器学习/深度学习 算法 定位技术
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别(C#代码UI界面版)
本项目基于YOLOv8模型与C#界面,结合Baumer工业相机,实现裂缝的高效检测识别。支持图像、视频及摄像头输入,具备高精度与实时性,适用于桥梁、路面、隧道等多种工业场景。
940 27
|
6月前
|
运维 数据可视化 C++
2025 热门的 Web 化容器部署工具对比:Portainer VS Websoft9
2025年热门Web化容器部署工具对比:Portainer与Websoft9。Portainer以轻量可视化管理见长,适合技术团队运维;Websoft9则提供一站式应用部署与容器管理,内置丰富开源模板,降低中小企业部署门槛。两者各有优势,助力企业提升容器化效率。
464 1
2025 热门的 Web 化容器部署工具对比:Portainer VS Websoft9
|
9月前
|
XML 安全 前端开发
一行代码搞定禁用 web 开发者工具
在如今的互联网时代,网页源码的保护显得尤为重要,特别是前端代码,几乎就是明文展示,很容易造成源码泄露,黑客和恶意用户往往会利用浏览器的开发者工具来窃取网站的敏感信息。为了有效防止用户打开浏览器的 Web 开发者工具面板,今天推荐一个不错的 npm 库,可以帮助开发者更好地保护自己的网站源码,本文将介绍该库的功能和使用方法。 功能介绍 npm 库名称:disable-devtool,github 路径:/theajack/disable-devtool。从 f12 按钮,右键单击和浏览器菜单都可以禁用 Web 开发工具。 🚀 一行代码搞定禁用 web 开发者工具 该库有以下特性: • 支持可配
844 22
|
9月前
|
人工智能 安全 程序员
用 Colab 和 ngrok 免费部署你的 Web UI 项目,随时随地访问!
用 Colab 和 ngrok 免费部署你的 Web UI 项目,随时随地访问!
1136 12
|
数据处理
「Mac畅玩鸿蒙与硬件45」UI互动应用篇22 - 评分统计工具
本篇将带你实现一个评分统计工具,用户可以对多个选项进行评分。应用会实时更新每个选项的评分结果,并统计平均分。这一功能适合用于问卷调查或评分统计的场景。
405 65
「Mac畅玩鸿蒙与硬件45」UI互动应用篇22 - 评分统计工具
|
人工智能 前端开发 API
Gemini Coder:基于 Google Gemini API 的开源 Web 应用生成工具,支持实时编辑和预览
Gemini Coder 是一款基于 Google Gemini API 的 AI 应用生成工具,支持通过文本描述快速生成代码,并提供实时代码编辑和预览功能,简化开发流程。
1037 38
Gemini Coder:基于 Google Gemini API 的开源 Web 应用生成工具,支持实时编辑和预览
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
566 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
12月前
|
存储 JSON JavaScript
WEB CAD插件通过上下文对象MxPluginContext修改UI界面的方法
本文介绍了如何使用MxPluginContext动态控制MxCAD项目的UI界面。通过该上下文对象,开发者可以灵活设置UI配置,如控制操作栏显隐、编辑按钮、添加侧边栏等。具体方法包括调用`getUiConfig()`获取并修改`mxUiConfig.json`中的属性,实现界面的定制化。此外,还提供了控制命令行聚焦的功能,解决输入框焦点锁定问题。详细代码示例和效果对比图展示了具体实现步骤,帮助开发者更好地适配项目需求。
|
12月前
|
人工智能 自然语言处理 前端开发
Flame:开源AI设计图转代码模型!生成React组件,精准还原UI+动态交互效果
Flame 是一款开源的多模态 AI 模型,能够将 UI 设计图转换为高质量的现代前端代码,支持 React 等主流框架,具备动态交互、组件化开发等功能,显著提升前端开发效率。
1873 1

热门文章

最新文章