WordArt Designer:基于用户驱动与大语言模型的艺术字生成

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: 本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。

创空间体验链接:https://modelscope.cn/studios/WordArt/WordArt/summary

7B373F96-8245-42C0-B6AC-91AB01FA640A.png

图 1. WordArt Designer 交互原理示意图

     艺术字设计是语言和设计的一个关键交叉点,在广告、幼儿教育和历史旅游等各个领域都有广泛的应用。遗憾的是,对于非专业的设计师来说,掌握艺术字设计仍然是一个非常挑战的任务。尽管之前已经有研究工作尝试弥合业余设计师和专业艺术字设计之间的差距,但现有的解决方案主要是在预定义的概念中生成语义连贯和视觉上令人愉悦的艺术字。这些解决方案通常缺乏适应性、创造性和计算效率。

image.png

图2. 由WordArt Designer生成的抽象艺术排版示例。这些实例证明了系统产生美观、语义连贯和风格多样的排版设计的能力。

方法概述

WordArt Designer 系统利用各种排版合成模块,由大型语言模型(LLM)推动,如GPT 3/4,促进交互式、以用户为中心的设计过程。如图3所示,用户定义他们的设计需求,包括设计概念和领域,例如,“珠宝设计中的猫”。LLM引擎解释输入,生成提示以指导SemTypo、stytypo和TextTypo模块,从而执行用户的设计愿景。 为了实现WordArt的自动化设计,我们引入了一个质量评估反馈机制,这是成功合成的关键。 排序模型的输出由LLM引擎评估,以验证合成图像的质量,确保创建至少K个合格的语义变换。 如果不满足这个条件,LLM引擎以及SemTypo和stytypo模块和格式指令将重新启动,以进行另一个设计迭代。后续部分将深入研究每个模块的功能和操作的细节。

image.png

图3. WordArt Designer 技术框架图

WordArt Designer 效果示例

150字 变形字矩阵展示(StylTypo)

image.png

纹理展示

珠宝纹理

matrix-jewelry-resized.gif

(因上传图像大小限制原图有压缩失真)

水果纹理

matrix-fruit.gif

(因上传图像大小限制原图有压缩失真)

纹理细节

image.png

多语言支持展示

image.png

行业基础模型纹理展示

image.png

动画应用示例 (刷新可重新播放)

Vincent-van-Gogh-style-bamboo.gifVincent-van-Gogh-style-flower.gifVincent-van-Gogh-style-fish.gifvegetable-flower1.gifbamboo-landscape.giffollower-landscape-spring.gifVincent van Gogh style, spring.gifVincent van Gogh style, could.gifVincent van Gogh style, frog.gifvarious jewelry, golden.gif

相关文章
|
7月前
|
编解码 文字识别 测试技术
3000 字带你了解Claude3 视觉能力,OCR, 菜单识别统统能搞定!
五大任务,带你了解Claude3的视觉能力有多强 2024 年 3 月 4 日,Anthropic 震撼发布了全新的多模态模型——Claude 3。据该公司介绍,无论是语言处理还是视觉识别任务,Claude 3 都展现出了超越同类竞争产品(例如配备视觉功能的 GPT-4)的卓越性能。
215 0
|
4天前
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
54 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
28天前
|
人工智能 文字识别 测试技术
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮
苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。MM1.5基于MM1模型,具备更强的文本处理、视觉理解和多图推理能力,适用于多种下游任务。此外,还推出了专门用于视频理解和移动UI理解的变体。
40 3
|
2月前
|
自然语言处理
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 23 章:命名实体识别提示
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 23 章:命名实体识别提示
29 0
|
5月前
|
人工智能
魔搭多模态AI单词助记&通义APP即时口语练习,你从未体验过的全新版本!
首次接触魔搭多模态AI单词助记工具让我颇感惊喜。传统背单词方式枯燥低效,而该工具通过生成关联图像、短语或故事,让记忆变得生动有趣。访问[Word-wizard](https://modelscope.cn/studios/makabakaing/Word-wizard)体验其图文记忆和视觉学习功能。目前图文记忆功能似乎存在问题,但视觉学习功能仍可正常使用,能识别图片特征并生成释义和例句,辅助学习效果不错。此外,可通过通义APP实现即时口语练习,尽管缺乏上下文记忆功能,但仍是一个优秀的练习工具。
|
5月前
|
人工智能
Prompt工程问题之通过prompt使AI输出的语言风格多变如何解决
Prompt工程问题之通过prompt使AI输出的语言风格多变如何解决
66 4
|
7月前
|
算法 计算机视觉
LabVIEW通过嘴唇图像识别为残疾人士开发文本输入系统
LabVIEW通过嘴唇图像识别为残疾人士开发文本输入系统
56 1
|
7月前
|
数据可视化 开发工具 计算机视觉
LabVIEW视觉采集软件(VAS)、视觉生成器(VB)和视觉开发模块(VDM)之间有什么不同
LabVIEW视觉采集软件(VAS)、视觉生成器(VB)和视觉开发模块(VDM)之间有什么不同
61 1
|
7月前
|
vr&ar 图形学
论文介绍:3D-SceneDreamer——基于文本驱动的3D场景生成技术
【5月更文挑战第2天】3D-SceneDreamer是一款文本驱动的3D场景生成工具,利用NeRF技术简化3D内容创作,通过文本描述创建室内及室外场景。该框架支持6-DOF摄像机轨迹,提高视角自由度。研究结合预训练的文本到图像模型解决3D数据稀缺问题,实现高质量、几何一致的场景生成。尽管面临文本描述精度和实际应用挑战,但该技术为3D场景生成带来显著进步。[论文链接](https://arxiv.org/pdf/2403.09439.pdf)
241 6
|
7月前
火山中文编程 -- 如果和如果真命令
火山中文编程 -- 如果和如果真命令
50 0