腾讯AI Lab公布首项研究:提出独特神经网络实现实时视频风格变换

简介: 风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。

风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。


E022B913-54C1-46EB-AB76-2841BB1142A5.jpeg

几天前,Facebook 在其官方博客上宣布了一种可以用在移动设备实现实时风格的深度学习系统 Caffe2Go,称能在眨眼之间完成处理的任务,而且还能实现高质量的视频风格变换。


而鲜为人知的是,腾讯新成立的人工智能研究部门腾讯 AI Lab 也在做这方面的研究,技术团队告诉我们腾讯 AI Lab 早在 9 月中就已经研发出了实时的视频风格变换技术,并用此技术对一些电影进行了风格变化,制作了非常酷炫的艺术人工智能电影,在腾讯内部已经有过展示。腾讯 AI Lab 的研究表示,他们已通过首创深度网络学习视频的时空一致性,在很大程度上提高了视频风格变换的质量。


10B43878-F78D-4DBB-A71A-52998A0D6AC7.jpeg

点击查看原视频



近日,机器之心对腾讯 AI Lab 的研究团队进行了独家专访,这也是腾讯 AI Lab 研究团队首次对外发声。


风格变换简史


将一张图像的风格变换成另一种风格的技术已经存在了近 15 年。2001 年,当时加州大学伯克利分校的 Alexei A. Efros 联合另外一位作者在论文《Image Quilting for Texture Synthesis and Transfer》中介绍了一种简单的基于纹理合成的方法,通过「缝合」已有的小型图像块合成新的图像外貌。


但利用神经网络来做这件事是最近才出现的。在论文《A Neural Algorithm of Artistic Style》中,研究者 Gatys、Ecker 和 Bethge 介绍了一种使用深度卷积神经网络(CNN)的方法。他们的风格转换图像是通过优化(optimization)得到的。


一方面,CNN 的高层特征描述了图像的主要的结构化信息。另一方面,基于 CNN 每一层的特征计算得到的 Gram matrix 又可以很好的捕捉图像的风格信息(笔触以及纹理等)。结合这两种信息定义损失函数,指导图像从某个起始点(如:随机噪声或内容图像本身)开始,不断迭代优化,逐渐转变为风格变换后的图像


 

79683506-B912-41C4-B121-2A5D95AF9FA9.png

内容+风格=另一种风格图像(图片来自:Google Reserch)


该成果被认为是深度学习研究领域的一项突破,因为它首次提供了基于神经网络的风格变换的概念证明。不幸的是,这种为单张图像施加风格的方法对计算要求很高。


不过到了 2016 年,俄罗斯的 Dmitry Ulyanov [1] 等人以及斯坦福李飞飞团队 [2] 的研究都大大加速了这一过程。这些研究认识到可以将这个优化问题转变成图像变换问题(image transformation problem),也就是将单个固定的风格应用到任意一张内容图像(比如一张照片)上。


然后该问题就可以这样被解决:训练一个前馈深度卷积神经网络来改变内容图像的语料库(corpus),从而使之匹配某画作的风格。这个训练出的网络有两重目的:保持原有图像的内容,同时匹配绘画的视觉风格。这样得到的最终结果是:以前花几分钟的图像风格转换现在通过前馈网络可以实时得到,进而应用于实时视频风格变换。


风格变换技术如何由图像扩展到视频?


视频是未来互联网上最多的流量载体。在图像风格变换引起爆发性关注之后,一系列的公司,譬如 Aristo,Prisma, Philm 等都开始聚焦短视频的风格变换,包括对人工智能一向深切关注的 Facebook 也将推出视频风格变换技术(智能手机移动端)。


将风格变换技术由图像向视频拓展最为直接的方式就是使用图像风格变换的技术逐帧完成视频的变换,但是这样很难保证视频帧间风格的一致性。为此 Ruder 等人提出了一种迭代式的做法 [3],通过两帧像素之间的对应关系信息来约束视频的风格变换。


但是,这种方法在生成风格化视频的时候复杂度很高,耗时很长。因此,如何构建有效的深度学习模型来学习视频的空间域以及时间域的特性以完成视频风格变换是学术界以及工业界一个重要的研究课题。


为解决这种问题,这个深度学习模型需要:


  1. 在空间域上可以将名画元素有效的提取出来并学习应用;
  2. 在时间域上保持变换风格的时间一致性(temporal consistency);
  3. 保证计算的高效性以支持更多的实际应用场景。


这也是包括 Facebook 和斯坦福大学等业界领先的研究团队比较关注的研究课题。但是迄今,业界的研究团队仍然没有很好的深度学习模型和高效率(如实时)的解决方案。


前向网络(Jonson et al.)主要应用于图像上。迭代式(Ruder et al.)的方法来处理视频的风格变换考虑了时间域的一致性,但是处理速度非常慢,处理一帧视频大约需要 3 分钟。


斯坦福大学的 Justin Johnson(使用前向网络完成图像风格变换的作者 [2])也谈到「将前向网络与基于光流的时间一致性结合是一个开放性的课题」,他本人认为这种结合是可能的,但是不清楚业界是否有人已经实现,而且也不太确定这种结合的正确方式。


针对视频风格变换的技术难点,腾讯 AI Lab 在业界率先构建了深度神经网络,将风格变换的前向网络与视频时空一致性结合起来,高效地完成高质量的视频风格变换。


首先,腾讯 AI Lab 设计了独特的深度神经网络,该网络结合了最新的卷积层以及残差层,能够对图像和视频学习有效的表示。在训练的过程中使用大规模、多场景、多特点的视频数据(数千小时)以及相应的风格图像,一方面学习空间域的风格变换特点(在保持原有视频内容的基础上引入给定图像的风格),另一个方面捕捉视频帧之间极其复杂多变的时域特性,使得产生的风格视频相邻帧之间的时空内容与风格一致。因为是针对视频数据,定义的损失函数(Loss Function)也比做图像数据的损失函数更复杂。


更重要的是,腾讯 AI Lab 还提出了一种针对视频数据的独特训练过程,使得他们的深度神经网络能够更好地捕捉视频时间域上的一致性信息。在风格视频生成阶段,不用做任何预处理和后处理,将输入视频在风格变换网络上进行一次前向传播,实时输出风格化的视频。


不仅如此,为了满足线上需要,腾讯 AI Lab 也挖掘了模型的深度、宽度对输出质量的影响,并基于此对模型进行压缩且输出质量没有肉眼可见损失。「我们有不同的网络模型精简策略和模型压缩算法。压缩后的模型小于 1M」。做此研究的人员说,「这里谈到的模型精简和压缩,是针对深度网络的精简以及相关的压缩策略。压缩会精简深度模型的操作并降低运算的复杂度,但是产生的图像/视频的质量(相比未压缩)不会显著性降低。」


从图像的风格变换到视频的风格变化,数据量的增长是巨大的。在解决数据增长的问题上,研究人员在构建算法的时候考虑到了不同的解决方案。在云端处理时,可以通过并行化的操作来快速完成视频风格生成。在终端处理时,通过网络的精简和压缩,使得在终端上能够实时完成视频的风格变换。


最后,经过上述优化后的深度模型,可以在手机客户端做到针对摄像头数据的实时处理,将用户拍摄的视频画面实时进行风格变换。


除此之外,腾讯 AI Lab 内部也关注了谷歌的多种风格融合的图像风格变化工作。


「整体来说,谷歌发现了不同风格的变换网络的参数之间的关系,因此使用一个基础网络以及另外一个参数变换表格来融合生成多种风格的网络。」腾讯 AI Lab 也正在研究如何将这一技术拓展到视频领域。


手机客户端实时视频风格变换在产品上的应用


立足于腾讯的大数据与平台,AI Lab 作为腾讯新成立的研究部门也在探索人工智能技术的新应用和新业务,将人工智能技术融入产品,满足腾讯庞大用户的需求。这也和谷歌、Facebook、亚马逊、微软等巨头成立人工智能研究部门、开发新技术、融合新产品与业务的公司策略如出一辙。


正如前文所言,腾讯 AI Lab 率先在业界探索了使用前向网络实现实时的视频风格变换,这是腾讯 AI Lab 在将人工智能技术与腾讯用户需求相结合的尝试。


「这使我们有理由相信更多的人工智能技术也能够应用到各类场景下的数据上面(图像/视频,文本,语音等)。」


类似之前朋友圈爆红的一款图像产品 Prisma,我们了解到腾讯 AI Lab 开发的图像滤镜技术已经在天天 P 图的 P 图实验室上线,产品名称是「潮爆艺术画」。目前他们们已经开发了上百款图像滤镜,会陆续在「潮爆艺术画」里登场。而对于视频风格变换技术,腾讯也有了一些产品上的计划。



参考文献:


[1]Ulyanov, Dmitry, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. Texture Networks: Feed-forward Synthesis of Textures and Stylized Images (2016).

[2]J. Johnson, A. Alahi, L. Fei-fei,「Perceptual Losses for Real-Time Style Transfer and Super-Resolution」, ECCV 2016.

[3]Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016).




©本文由机器之心原创,转载请联系本公众号获得授权

相关文章
|
2天前
|
机器学习/深度学习 人工智能 iOS开发
MagicMirror:一键 AI 换脸、换发型和换穿搭,拖放照片就能实现换脸和形象变换,本地运行无需配置
MagicMirror 是一款开源的一键 AI 换脸、换发型和穿搭应用,支持离线处理,保护隐私,轻量级设计,适合个人娱乐和创意内容创作。
31 13
MagicMirror:一键 AI 换脸、换发型和换穿搭,拖放照片就能实现换脸和形象变换,本地运行无需配置
|
4天前
|
机器学习/深度学习 人工智能 编解码
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器,通过时空分离压缩机制和文本指导,实现了高效视频压缩与精准重建。
31 7
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
|
6天前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
27 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
16天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
83 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
25天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
85 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
86 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
20天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
存储 人工智能 自然语言处理
69 6
|
机器学习/深度学习 人工智能 自然语言处理
AI和机器学习时代 如何对抗新的网络威胁
需要渗透测试服务出现了一个世纪以来时,在系统的攻击变得频繁。许多公司开始丢失其敏感数据,从而以最坏的方式影响了客户。敏感数据的丢失恰恰是我们何时(以及为什么)看到另一个技术行业兴起的时候。
509 0
AI和机器学习时代 如何对抗新的网络威胁
|
8天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
140 97