AI设计师“鹿班”核心技术公开:如何1秒设计8000张海报?

简介:

本文介绍了视觉生成的现状,智能设计的框架和流程、应用案例及未来前景。通过本文的学习,可以对鹿班这个产品,以及视觉生成相关技术有基础性的认识、了解行业的现状以及未来的发展趋势。

演讲嘉宾简介:星瞳,阿里巴巴机器智能技术实验室资深算法专家,专注于视觉生成、智能医疗、图像搜索、信息抽取等方面技术研发和落地;阿里巴巴智能设计(鹿班)的创始成员和算法技术负责人,医疗影像智能诊断方向负责人,图像搜索拍立淘的早期创始成员。

本次分享主要分为以下几个部分:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 定义、目标和愿景
d47e62d2b349aca45e42305ed6714efbe5ed61d9 设计行业现状
d47e62d2b349aca45e42305ed6714efbe5ed61d9 使用场景
d47e62d2b349aca45e42305ed6714efbe5ed61d9 技术框架和生产流程
d47e62d2b349aca45e42305ed6714efbe5ed61d9 关键算法
d47e62d2b349aca45e42305ed6714efbe5ed61d9 业务进展
d47e62d2b349aca45e42305ed6714efbe5ed61d9 案例展示
d47e62d2b349aca45e42305ed6714efbe5ed61d9 鹿班(新零售UED、淘宝技术部等共创的典型案例)
d47e62d2b349aca45e42305ed6714efbe5ed61d9 前景展望

一、定义、目标和愿景

视觉生成的定义:可控视觉内容设计和生成,聚焦满足用户、场景需求的数字视觉内容制造,包括针对图像、视频及图形的增强、编辑、渲染、生成、评估等视觉内容设计与制作。用技术赋能和改革设计、广告及数娱行业。

目标:可控视觉内容设计和生成,让AI做设计,使数字内容制造变得高质、高效、普惠、低成本;

愿景:所想,即所见。

85c3a3125c4610e49f3e01e0c7e64705a6f27d4d

视觉生成主要分成三个方向。第一,针对非结构化的图像。第二,针对结构化的图形。第三,针对序列化的视频。

3f5ae65ad2d2d5587ba4da6c374a3956317aab31

二、设计行业现状

视觉生成较年轻,起初,基本都是通过人工方式完成。小到海报或毕业设计封面的设计这样的小需求,大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大,市场与广告、商家关系紧密,市场容量非常大。

从技术上说,近几年,大家常提到供给侧改革,以前的供给侧基本都是通过人或工具来形成图像、视频等,但这样有很大的局限性,包括:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 效率低成本高
d47e62d2b349aca45e42305ed6714efbe5ed61d9 数据利用率低,比如去年双十一和今年双十一由于主题不同,需要全盘重做。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 无法在线化,从提出需求到得到结果无法做到实时。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 难以上下文相关,设计师不会结合用户的个性化需求,形成与上下文相关的结果。

而在消费端,对个性化、精准度、实时性有很高的需求。因此,在供给和需求之间还存在差距。在AI行业中,IN的多:识别、理解、搜索。OUT的少:生成、融合还限于学术圈,系统性落地工程、可商用的产品没有。

因此,“The best way to predict is to create”。

1d1c04bcb4440b6e4558e585cb9c092b906ed286

三、使用场景

视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言,用户可以输入标签需要的风格、色彩、构图等,或者输入一个例子,或者进行一些交互的输入。除显式输入之外还可以有隐式输入,比如人群信息、场景信息、上下文信息等。总的来说,输入可以是千变万化的,但通过规范化之后就会减少变化,使得生成过程可控,输出质量可控。

0fcd629fe6dff885699fae9689cdf6941f7ef2c2

对视觉生成引擎来说,它要求输入是规范化的。但在输入前,可以加入各种交互方式,如自然语言处理,语音识别等,将其转化成规范化输入。最后输出结构化信息或可视成图。

54ee1ac1294251e6702ebcc27275a10eb4f6140c

四、技术框架和生产流程

其技术框架如下图左侧。首先对视觉内容进行结构化理解,如分类、量化、特征化。其次通过一系列学习、决策变成满足用户需求的结构化信息即数据,最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据。其核心是一个设计内核。同时,引入效用循环,利用使用后的反馈来不断迭代和改进系统。

其生产流程分成六个步骤,如下图右侧所示。首先用户提出需求,将需求特征化转变成系统可以理解的结构化信息。其次将信息进行规划得到草图。有了粗略的草图后再将其转变成相对更精确的图,然后调整细节,最后通过数据可视化形成最终的图。当然其中还有很多的trick,以及各部分的优化。

e361f08dc10f3a958527787730f0746554cca0b4

五、关键算法

下面介绍一些关键算法。我们希望基于下图最左的耐克鞋生成最右的图。先通过规划器得到草图,再通过强化学习获得相对细致的结果,再通过对抗学习及渲染算法得到图片,再通过评估器进行评估,最后形成业务闭环,其中还会有一些基础的能力,包含更强的联合特征(非普通 CNN特征)及多维度检索算法等。

938bc4086a87ee153bce9133b483d1a18df1adfc

基本上,处理的第一步是将图片中的信息结构化,这也是与现有的识别理解技术结合最紧密的地方。其中的难点和重点包括,对图像中多目标的识别、遮挡和互包含情况如何得到分割的信息等,下图只是个简单的示例。

06a29f12bab6e2bbb4ee96ee22cc2e8ca96859c2

有了结构化信息之后,需要对信息进行量化。可以量化成特征或量化图。量化过程中会包含很多信息,比如主题风格、布局配色、元素种类、量化空间等。有了这些信息后可以在主题、种类、风格、视觉特征大小位置上,量化成各种码,用相对有限的特征来表达无限的图。

c1c5a32d8372d124cbf87776dd3c49ea19f8c77b

下一步是通过用户的输入,得到一个相对粗略的结果即草图。目前主要使用的是深度序列学习。从图像角度,首先选定一个点的像素颜色再选择位置,再迭代进行操作,最后形成一张图。规划器模拟的就是这个过程。本质上预测过程是一棵树,当然也可以拆成一条条路径。为了简化,可以分成几步进行,比如空间序列,视觉序列。最后形成量化特征模型,主要应用的是LSTM模型。它把设计的过程转化成基于递归、循环的过程。

0bbd4cd45707262ab3b433b41b41db593ffbfc22

得到草图后,利用行动器将草图细化。如果将图中的每个元素看作一个Agent,那么它将有若干个可选的行动空间。

22060ec8282f0bd7e801aa1ee3ddcbc903bae367

假设一张图中有20个元素,每个元素在视觉上有多种可选的行动空间,由其组合成的可选行动空间非常庞大。我们有很多trick可以解决这一问题,比如在空间上,只允许在有限范围内进行变动,且行动方向有序,即状态有序,行动有限。

7c3d2ed188add994c41ec49962b4325986c9b3b1

下一步是如何衡量结果的好坏。图像的评估相对比较主观,主要可以从美学和效果两方面来评估。美学角度可以包括是否对齐、色系搭配是否合理、有无遮挡这些较低级别的判断标准,以及较高级的,比如风格是否一致,是否切合主题。从效果上,产品投放后是否会在点击率等方面实现提升。最后将多个指标形成对应权重并形成多个DeepLR联合模型。

193de559ae0758f0e0049a3f3c80cd3f32a57aca

但在衡量结果之前,需要形成像素级别可见的图。这里有以下几种构造器分类,包括临摹、迁移、创造、搭配与生成。

f7f9aa6c495dae31a18acc939f46a0f2112ad09d

前面介绍了,如何通过用户的需求形成可见的图。后续还需要进行投放和反馈并进行优化,形成效用外循环。这样才能使得系统效用不断得到提升,形成一个在线闭环,这也是智能设计相对设计师的一大优势。

1f8fbc429670794c9c16572984098bc8807e0bbe

六、业务进展

下面是一些实际的例子。

36e41d6407afb37cf4e7158fb6970a54467cc274

在这个系统中也加入了大量的人的信息,知识图谱。设计师在进行设计时都会存在一些共性的东西,包括在色彩、复杂度、风格、结构上的应用,这与自然语言处理有些相似,但自然语言处理方面的知识图谱已经非常成熟,而设计上的还需要不断探索打磨。

在影响力方面,鹿班作为业界首创的AI设计系统,成为集团双十一的一个AI协同典型案例,获得了大量的报道。在其中,运用了对抗学习,该技术是MIT2018全球十大突破性技术之一。

7b564295e243ffa35b350123fb295c560dc841bd

七、案例展示

从多样性看,生成的图片可以是多主体、多主体、多配色和类型自适应的。

d50704e47ae67bd2a549ef3629eaaaf024b08928

同时,也可以生成多种尺寸的图片。

68a5f9c049dd96824dc9c2fc9331d2e96b53e769

八、前景展望

上面所说的基本都是平面设计层面的。但在视频和图形上是另一片蓝海。如果说人工做一张图片的成本比较高,而制作视频的成本则远高于图片。

86f62f8b9628ba8a7d89552cb6f5adc607c06ee4

下图是目前的行业市场空间展示。

7e91dd41d2518c9441aaef5c2965cafe754f9a0a

下图是在视频中进行广告植入的案例。需要检测视频中哪个位置适合插入广告,对位置进行优化。

312e20e77f480ebe7fb28aed35ce639cacf65a26

下图是网球赛中将阿里巴巴的品牌logo无缝投影到赛场中。

d838a1b868dfd425fa449f2c6eae7bfa7a40133d

为了强调视频中的一部分,可以生成整体静止局部运动的可循环视频。

06facd68df5792ab042c9d473af7701ff05b7d57

在游戏领域中,现在的游戏场景需要大量的美工、设计师等。如果希望生成的结果能满足多样性,那么纯靠人工进行需要大量的成本,并且由于游戏的生命周期通常较短,因此批量高效的场景制作是一个很有前景的应用。

d3901a628d1dae63dc0d6a9d20e9308e90c7b259

九、结语

通过视觉生成引擎,我们希望能基于用户的所想,使得一切皆可生成。长远的目标就是:所想,即所见。


原文发布时间为:2018-05-9

本文作者:星瞳

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关文章
|
25天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
81 3
|
1月前
|
人工智能 搜索推荐 安全
AI技术在医疗领域的应用与挑战
【10月更文挑战第27天】 本文探讨了人工智能(AI)在医疗领域的应用,包括疾病诊断、药物研发和患者管理等方面。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题和技术局限性等。通过对这些方面的深入分析,我们可以更好地理解AI在医疗领域的潜力和发展方向。
138 59
|
6天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用与前景
本文探讨了人工智能(AI)技术在医疗领域的应用,包括疾病诊断、治疗方案制定、药物研发等方面。通过对现有研究成果的梳理,分析了AI技术在提高医疗服务效率、降低医疗成本、改善患者体验等方面的潜力。同时,也指出了AI技术在医疗领域面临的挑战,如数据隐私保护、伦理道德问题等,并展望了未来的发展趋势。
27 2
|
7天前
|
机器学习/深度学习 人工智能 机器人
AI技术在医疗领域的应用及挑战
本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的定义和分类开始,然后详细介绍其在医疗领域的具体应用,如疾病诊断、药物研发等。最后,我们将讨论AI在医疗领域面临的挑战,包括数据隐私、伦理问题等。
|
8天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗健康领域中的多维度应用,从疾病诊断、个性化治疗到健康管理,展现了AI如何革新传统医疗模式。通过分析当前实践案例与最新研究成果,文章揭示了AI技术提升医疗服务效率、精准度及患者体验的巨大潜力,并展望了其在未来医疗体系中不可或缺的地位。 ####
|
15天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用####
本文探讨了人工智能(AI)技术在医疗领域的创新应用及其带来的革命性变化。通过分析AI在疾病诊断、个性化治疗、药物研发和患者管理等方面的具体案例,展示了AI如何提升医疗服务的效率和准确性。此外,文章还讨论了AI技术面临的挑战与伦理问题,并展望了未来的发展趋势。 ####
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在医疗领域的应用与前景####
本文探讨了人工智能(AI)在医疗领域的多方面应用,包括疾病诊断、个性化治疗、患者管理以及药物研发等。通过对现有技术的梳理和未来趋势的展望,旨在揭示AI如何推动医疗行业的变革,并提升医疗服务的质量和效率。 ####
48 5
|
23天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
98 11
|
28天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
91 4