风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。
几天前,Facebook 在其官方博客上宣布了一种可以用在移动设备实现实时风格的深度学习系统 Caffe2Go,称能在眨眼之间完成处理的任务,而且还能实现高质量的视频风格变换。
而鲜为人知的是,腾讯新成立的人工智能研究部门腾讯 AI Lab 也在做这方面的研究,技术团队告诉我们腾讯 AI Lab 早在 9 月中就已经研发出了实时的视频风格变换技术,并用此技术对一些电影进行了风格变化,制作了非常酷炫的艺术人工智能电影,在腾讯内部已经有过展示。腾讯 AI Lab 的研究表示,他们已通过首创深度网络学习视频的时空一致性,在很大程度上提高了视频风格变换的质量。
近日,机器之心对腾讯 AI Lab 的研究团队进行了独家专访,这也是腾讯 AI Lab 研究团队首次对外发声。
风格变换简史
将一张图像的风格变换成另一种风格的技术已经存在了近 15 年。2001 年,当时加州大学伯克利分校的 Alexei A. Efros 联合另外一位作者在论文《Image Quilting for Texture Synthesis and Transfer》中介绍了一种简单的基于纹理合成的方法,通过「缝合」已有的小型图像块合成新的图像外貌。
但利用神经网络来做这件事是最近才出现的。在论文《A Neural Algorithm of Artistic Style》中,研究者 Gatys、Ecker 和 Bethge 介绍了一种使用深度卷积神经网络(CNN)的方法。他们的风格转换图像是通过优化(optimization)得到的。
一方面,CNN 的高层特征描述了图像的主要的结构化信息。另一方面,基于 CNN 每一层的特征计算得到的 Gram matrix 又可以很好的捕捉图像的风格信息(笔触以及纹理等)。结合这两种信息定义损失函数,指导图像从某个起始点(如:随机噪声或内容图像本身)开始,不断迭代优化,逐渐转变为风格变换后的图像
内容+风格=另一种风格图像(图片来自:Google Reserch)
该成果被认为是深度学习研究领域的一项突破,因为它首次提供了基于神经网络的风格变换的概念证明。不幸的是,这种为单张图像施加风格的方法对计算要求很高。
不过到了 2016 年,俄罗斯的 Dmitry Ulyanov [1] 等人以及斯坦福李飞飞团队 [2] 的研究都大大加速了这一过程。这些研究认识到可以将这个优化问题转变成图像变换问题(image transformation problem),也就是将单个固定的风格应用到任意一张内容图像(比如一张照片)上。
然后该问题就可以这样被解决:训练一个前馈深度卷积神经网络来改变内容图像的语料库(corpus),从而使之匹配某画作的风格。这个训练出的网络有两重目的:保持原有图像的内容,同时匹配绘画的视觉风格。这样得到的最终结果是:以前花几分钟的图像风格转换现在通过前馈网络可以实时得到,进而应用于实时视频风格变换。
风格变换技术如何由图像扩展到视频?
视频是未来互联网上最多的流量载体。在图像风格变换引起爆发性关注之后,一系列的公司,譬如 Aristo,Prisma, Philm 等都开始聚焦短视频的风格变换,包括对人工智能一向深切关注的 Facebook 也将推出视频风格变换技术(智能手机移动端)。
将风格变换技术由图像向视频拓展最为直接的方式就是使用图像风格变换的技术逐帧完成视频的变换,但是这样很难保证视频帧间风格的一致性。为此 Ruder 等人提出了一种迭代式的做法 [3],通过两帧像素之间的对应关系信息来约束视频的风格变换。
但是,这种方法在生成风格化视频的时候复杂度很高,耗时很长。因此,如何构建有效的深度学习模型来学习视频的空间域以及时间域的特性以完成视频风格变换是学术界以及工业界一个重要的研究课题。
为解决这种问题,这个深度学习模型需要:
- 在空间域上可以将名画元素有效的提取出来并学习应用;
- 在时间域上保持变换风格的时间一致性(temporal consistency);
- 保证计算的高效性以支持更多的实际应用场景。
这也是包括 Facebook 和斯坦福大学等业界领先的研究团队比较关注的研究课题。但是迄今,业界的研究团队仍然没有很好的深度学习模型和高效率(如实时)的解决方案。
前向网络(Jonson et al.)主要应用于图像上。迭代式(Ruder et al.)的方法来处理视频的风格变换考虑了时间域的一致性,但是处理速度非常慢,处理一帧视频大约需要 3 分钟。
斯坦福大学的 Justin Johnson(使用前向网络完成图像风格变换的作者 [2])也谈到「将前向网络与基于光流的时间一致性结合是一个开放性的课题」,他本人认为这种结合是可能的,但是不清楚业界是否有人已经实现,而且也不太确定这种结合的正确方式。
针对视频风格变换的技术难点,腾讯 AI Lab 在业界率先构建了深度神经网络,将风格变换的前向网络与视频时空一致性结合起来,高效地完成高质量的视频风格变换。
首先,腾讯 AI Lab 设计了独特的深度神经网络,该网络结合了最新的卷积层以及残差层,能够对图像和视频学习有效的表示。在训练的过程中使用大规模、多场景、多特点的视频数据(数千小时)以及相应的风格图像,一方面学习空间域的风格变换特点(在保持原有视频内容的基础上引入给定图像的风格),另一个方面捕捉视频帧之间极其复杂多变的时域特性,使得产生的风格视频相邻帧之间的时空内容与风格一致。因为是针对视频数据,定义的损失函数(Loss Function)也比做图像数据的损失函数更复杂。
更重要的是,腾讯 AI Lab 还提出了一种针对视频数据的独特训练过程,使得他们的深度神经网络能够更好地捕捉视频时间域上的一致性信息。在风格视频生成阶段,不用做任何预处理和后处理,将输入视频在风格变换网络上进行一次前向传播,实时输出风格化的视频。
不仅如此,为了满足线上需要,腾讯 AI Lab 也挖掘了模型的深度、宽度对输出质量的影响,并基于此对模型进行压缩且输出质量没有肉眼可见损失。「我们有不同的网络模型精简策略和模型压缩算法。压缩后的模型小于 1M」。做此研究的人员说,「这里谈到的模型精简和压缩,是针对深度网络的精简以及相关的压缩策略。压缩会精简深度模型的操作并降低运算的复杂度,但是产生的图像/视频的质量(相比未压缩)不会显著性降低。」
从图像的风格变换到视频的风格变化,数据量的增长是巨大的。在解决数据增长的问题上,研究人员在构建算法的时候考虑到了不同的解决方案。在云端处理时,可以通过并行化的操作来快速完成视频风格生成。在终端处理时,通过网络的精简和压缩,使得在终端上能够实时完成视频的风格变换。
最后,经过上述优化后的深度模型,可以在手机客户端做到针对摄像头数据的实时处理,将用户拍摄的视频画面实时进行风格变换。
除此之外,腾讯 AI Lab 内部也关注了谷歌的多种风格融合的图像风格变化工作。
「整体来说,谷歌发现了不同风格的变换网络的参数之间的关系,因此使用一个基础网络以及另外一个参数变换表格来融合生成多种风格的网络。」腾讯 AI Lab 也正在研究如何将这一技术拓展到视频领域。
手机客户端实时视频风格变换在产品上的应用
立足于腾讯的大数据与平台,AI Lab 作为腾讯新成立的研究部门也在探索人工智能技术的新应用和新业务,将人工智能技术融入产品,满足腾讯庞大用户的需求。这也和谷歌、Facebook、亚马逊、微软等巨头成立人工智能研究部门、开发新技术、融合新产品与业务的公司策略如出一辙。
正如前文所言,腾讯 AI Lab 率先在业界探索了使用前向网络实现实时的视频风格变换,这是腾讯 AI Lab 在将人工智能技术与腾讯用户需求相结合的尝试。
「这使我们有理由相信更多的人工智能技术也能够应用到各类场景下的数据上面(图像/视频,文本,语音等)。」
类似之前朋友圈爆红的一款图像产品 Prisma,我们了解到腾讯 AI Lab 开发的图像滤镜技术已经在天天 P 图的 P 图实验室上线,产品名称是「潮爆艺术画」。目前他们们已经开发了上百款图像滤镜,会陆续在「潮爆艺术画」里登场。而对于视频风格变换技术,腾讯也有了一些产品上的计划。
参考文献:
[1]Ulyanov, Dmitry, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. Texture Networks: Feed-forward Synthesis of Textures and Stylized Images (2016).
[2]J. Johnson, A. Alahi, L. Fei-fei,「Perceptual Losses for Real-Time Style Transfer and Super-Resolution」, ECCV 2016.
[3]Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016).
©本文由机器之心原创,转载请联系本公众号获得授权。