微软AI单凭文字就可作画,谁最先受到冲击?

简介: 马云曾说:“三十年后,《时代》杂志封面年度最佳CEO说不定是个机器人。”

马云曾说:“三十年后,《时代》杂志封面年度最佳CEO说不定是个机器人。”

机器人CEO可能还需等待,但机器人绘画师已经在路上。

当Google的AI正在涂鸦时,微软的绘画AI 已经学会如何画鸟了。近日,微软对外宣称正计划推出一项新的人工智能技术——绘图机器人(drawing bot)。使用者仅需说出想要绘制物体的名称,机器人便可以进行相关素材的匹配,也就是说,未来可以通过口述的方式进行绘画,说啥画啥。

98cf2e77275d97dc85030ef77ef77470.jpg

人工智能系统单纯透过文字描述就能够创作图像,该技术在文字描述中寻找关键字词,然后再用来创作高画质的图像,据悉这个关注重点的技巧让图像的画质较之前提升3倍。

随着人工智能时代的到来,艺术与科技的碰撞,越来越频繁地现身热门话题榜。AI“看文作画”的技术展现了具有艺术表现力的潜能,对艺术创作的影响已经可以预见。但微软的绘画AI,在撬动智能体想象力方面,意义绝对不只是“艺术助手”所能概括的。

所以,AI口述绘画这件事,不可小瞧!




什么是AI口述绘画


AI口述绘画,看起来好像是机器接受人类指令给出图画,但远远不止这么简单。智能相对论(微信id:aixdlun)了解到,正如负责研发的Microsoft深度学习技术首席研究员何晓东说的,图像是人工智能由零开始,逐像素逐像素创作。他以一幅人工智能创作的黄色雀鸟图像做解说,表示人工智能分析文字后,再透过一项名为生成对抗性网络(GAN,Generative Adversarial Network)的技术将文字转化成图像,人工智能创作的黄色雀鸟并不一定在现实世界存在,只是电脑的一种想像。


62c60ee69990c331de667fb14e5420f2.jpg


GAN通过从高维的分布中采样,生成模型输出与训练样本类似的新样本。这就意味着,若生成模型的训练数据是鸟的图像集,那么训练后得到的模型也能输出类似于鸟的合成图片。

研究员称人工智能系统能够创作出任何类型的形象,例如飘浮的双层巴士、放牧中的牲畜等,而且在文字中欠缺的一些细节,系统会在影像中自行补完。


GAN结构用到了两个神经网络:一个是生成器,它试图基于输入的数据生成更像真实数据的结果;另一个是判别器,它的目的在于正确分辨哪些是真实的数据。简单地来理解就是,生成器总是在试图“骗过”判别器。


生成器必须反复用随机输入的噪音数据合成有意义的内容,直到判别器无法区分合成内容的真伪。这套框架正在被扩展应用到许多数据模式和任务中。如仿真时间序列的特征;超分辨率图像;从二维图像复原三维结构;小规模标注数据集的泛化;预测视频的下一帧;生成自然语言的对话内容;艺术风格迁移;语音和音乐的合成。


值得一提的是,微软研究人员在此基础上创建了他们称之为注意力生成式对抗网络或AttnGAN的技术,这个AttnGAN生成的图像的质量比之前最好的GAN生成的图像质量提高了近三倍。而这种仿人类注意力的生成式对抗网络对AI界的影响十分重大,这标志着在类人类智能的发展实现了质的突破。



AI据文绘画,或许漫画领域最受冲击

“看文作画”的AI在现实生活中又会发挥什么样的用处呢?


让我们来想象一下,未来,可能会发生这样的对话——


“Drawing bot,请你为我画一个花园。”


接着,一座美丽的花园跃然于纸上,花园中有各色的花朵,飞舞的蝴蝶,甚至有两个小孩在其中嬉戏。


从文本到图像的生成技术可以找到很多实际应用,它既可以作为漫画家和室内设计师的素描助理,或者作为语音美化照片的工具。如果有更多的计算能力,这项技术能够根据电影剧本生成动画电影,进行一些重复且繁琐的手工绘画,比如动画背景中的一棵树、一颗草,进而改善动画电影制片人的工作。


人工智能可以模仿披头士写歌,当然也可以模仿各种名家作画。试想一下,一个没有任何绘画基础的编剧,却能在网上发布自己漫画剧作,其作品还颇有当代某著名漫画家的画风。在动漫方面,如果微软的这款绘图智能大力发展,完全可以大大降低创作门槛。当然,这种另类的“漫画创作”也可能面临素材版权的问题。


目前来说,微软这个绘图AI还是有比较大的提升空间,而在不断改进后,在将来,它可能会对漫画领域产生极大的冲击,甚至于对室内空间设计行业也会产生影响。当然,其主要作用还是节省画家和设计家的人力和时间,而令人期待的是,未来的电视上极有可能会出现由AI自导自演的动画片。



想象力——让AI区别于死物

除了知道绘画AI可以充当更好的人类帮手之外,我们为什么要关注AI绘画这件事?智能相对论(微信id:aixdlun)认为,其中关键,或许是我们应该知道“想象力”在AI世界中的重要程度和期待指数。


想象力是人在已有形象的基础上,在头脑中创造出新形象的能力。比如当我说起牛奶,你想到的图景可能是杯子中盛着白色的牛奶,这个想象是基于你生活中的经验所得到的,也就是说,想象一般是在掌握一定的知识面的基础上完成的。

绘画机器人能够想象出标题中没有包含的细节,这是因为,它有一点自己的常识和想象力,当然,这要依赖于它大量的训练数据。


在鸟的例子中,机器人画的鸟通常是站在枝头上的,然而文本内容中其实并没有提到这一细节。这是因为数据库中提供给它的图像经常出现类似的内容。这意味着,AI在掌握了一定的知识面后也能将其利用起来形成自己的想象。

目前,AI只是在小的细节中进行补充,而下一步,应该是试图在更自主地描绘图像上完成突破。如果这个突破到来,意味着AI模型在“想象力”这一特质上得到了进一步升级。这个能让AI区别于死物的能力,终于拉开了表演的大幕。


AI先天具备的是运算能力,从而进行仿人类智慧的智能模拟,第二步就是模仿人类的感知,比如机器识别、语音识别、语义分析等等,都是在做这件事。而第三步,就是让AI 有自己的“想象”和“思考”。


假如单纯的感知却无法自主输出,那么AI无非是更灵活的传感器而已。


从这个逻辑上来看,微软AI“看文作画”绝不仅仅是一个商业应用的技术加持,也不仅仅是艺术与科技的碰撞,更重要的应该是开启了AI世界里使AI具有想象力的新纪元。


微软的这只鸟,更深远的意义在于,我们或许距离摆脱机器人纯粹的“运算”更近了一步。

相关文章
|
24天前
|
人工智能 自然语言处理 搜索推荐
【通义】AI视界|微软Copilot Studio推出新功能,帮助企业更便捷地构建和部署AI代理
本文介绍了近期科技领域的五大重要动态:马斯克旗下xAI发布首个API,苹果内部研究显示ChatGPT比Siri准确率高25%,微软Copilot Studio推出新功能,霍尼韦尔与谷歌合作引入Gemini AI,浑水创始人建议买入科技七巨头股票。更多资讯请访问【通义】。
|
1月前
|
机器学习/深度学习 人工智能 算法
【通义】AI视界|若未来三年无法盈利,OpenAI或被微软收购!
本文精选了24小时内的重要科技新闻,包括苹果即将发布的全新智能家居战略、OpenAI若未来三年无法盈利或被微软收购的消息、Meta建议网友用AI生成极光照片引发争议,以及黄仁勋对马斯克的高度评价。登录通义官网了解更多功能。
|
16天前
|
人工智能
探秘写歌词的技巧和方法:让你的文字唱出旋律,妙笔生词AI智能写歌词软件
在音乐世界里,歌词是触动人心的灵魂。本文介绍如何掌握写歌词的技巧,包括灵感捕捉、结构布局、语言运用等,并推荐《妙笔生词智能写歌词软件》作为创作助手,助你轻松创作动人心弦的歌词。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
详解微软Copilot AI助手:Copilot官网入口_Copilot国内网站入口
微软 Copilot 是一种集成在多种 Microsoft 产品中的人工智能助手,旨在提高工作效率和创造力。它利用强大的机器学习和自然语言处理技术,能够理解用户的需求并提供实时的帮助和建议。以下是对微软 Copilot 的详细介绍。
|
23天前
|
人工智能 自然语言处理 自动驾驶
【通义】AI视界|微软和 OpenAI 将向媒体提供1000万美元资助,推动其使用AI工具
本文概览了近期科技领域的五大热点事件,包括微软与OpenAI联手资助媒体使用AI工具、OpenAI任命前白宫官员为首任首席经济学家、特斯拉FSD系统遭调查、英伟达市值逼近全球第一、以及AMD新一代锐龙9000X3D系列处理器即将上市的消息。更多资讯,请访问通义官网。
|
2月前
|
存储 人工智能 自然语言处理
新手指南:微软ai助手Copilot国内如何使用?
微软 Copilot 是一款强大的 AI 助手,掌握一些技巧可以让你更好地利用它,提高效率和创造力,让你的工作和生活更加精彩!
|
3月前
|
人工智能 iOS开发 UED
详解苹果和微软的AI集成策略
详解苹果和微软的AI集成策略
详解苹果和微软的AI集成策略
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI按理说应该最擅长理工,为啥先冲击文艺行业?
AI按理说应该最擅长理工,为啥先冲击文艺行业?
|
3月前
|
人工智能 Apache
Flux AI:释放你的想象力,用文字生成图像
Flux AI 是一款支持多种风格的 AI 图像生成器。它使用先进的基于变换器的管道模型来实现高质量、精确的输出。它具有用户友好的界面,适合专业人士和业余爱好者。Flux AI 可以快速将文本提示转换为精确的图像,从而提高创作效率。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理

热门文章

最新文章

下一篇
无影云桌面