自 2012 年以来,经过视觉领域诸多学者们的不懈努力,「物体识别」、「人脸检测」等传统任务的性能在一定程度上达到饱和,因此纵观本届 979 篇入选论文,我们会看到研究者们纷纷将目光转向近年来的一些新兴问题。在今年,商汤的研究者们就大规模分布式训练、人体理解与行人再识别、三维场景理解与分析、底层视觉算法、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等多个问题展示了自己的最新工作。
而纵观 CVPR,已经有一批从实际应用场景出发的、有针对性的新问题受到了广泛关注,一些数据模态和模型结构设计已经形成了声势浩大的热门子领域。
例如,CVPR 2018 总共有超过 30 篇论文探讨如何解决行人再识别问题,其中 7 篇来自商汤。行人识别问题的难度某种程度上胜于人脸识别这个视觉领域的传统研究热点:大多数情况下,行人属于非合作状态,视角比人脸更多样;同时因为人体关节的活动范围远大于面部肌肉的活动范围,即使视角相同,不同动作的同一行人差异也会非常大。行人再识别无疑是继人脸识别之后,另一个有着广阔应用场景的研究课题,在智慧城市中,其可以应用于多摄像头联动的行人追踪;在智能零售行业里,也可以用于调研用户的行为轨迹,为分析顾客购物需求与商品关注度提供宝贵的数据。
本届行人再识别领域唯一一篇 oral 论文就来自商汤,第一作者 Dapeng Chen 近三年都在从事行人再识别中相似性测度部分的研究,在后文的采访中,他也提到,自己的研究逐渐从非深度学习方法转向深度学习方法,从小数据集延伸到大规模数据集。
除了行人再识别之外,商汤入选论文中也有 4 篇涉及三维场景理解与分析。在 CVPR 收录的论文中,有高达 83 篇以「3D」为名,涉及三维视觉的工作则超过 90 篇,占据了全体收录论文的近 1/10。
三维视觉研究的再度火热一方面归功于三维传感器的快速发展,另一方面也来自于自动驾驶等三维应用场景快速发展衍生的强烈需求。能够处理无序三维点云数据的新算法不断涌现,三维检测、三维分割等问题的精度与效率均在快速提升中。面向传统的三维视觉问题,如运动恢复结构(Sturcture from Motion)、同步定位与地图构建(SLAM)、基于单目图像的三维结构恢复等问题,研究人员也基于深度学习技术提出众多新颖算法,不断突破原有算法的性能瓶颈。
商汤的 spotlight 论文 Single View Stereo Matching 就关注自动驾驶场景下基于单目图像的深度估计。基于视觉的自动辅助驾驶系统通常使用单目摄像头获取图像,判断当前车辆与周围车辆、行人和障碍物的距离,该论文提出了一种能够大幅度提升单目图像深度估计精度的算法。
此外,商汤科技还有 3 篇文章基于对抗生成网络提出了新颖算法,而 CVPR 共有 81 篇文章使用了对抗生成网络。图像生成是经典的视觉问题,而对抗式方法的引入让研究者得以生成分辨率更高、与真实图像更接近的图像。基于对抗式生成网络的图像生成已经成为数据增强的有效手段之一,数据生成的进步意味着研究者在一定程度上可以摆脱深度学习模型对巨型数据集的需求这一制约条件。对抗性损失函数也可以帮助其他视觉问题(如检测、分割、识别等)增强性能与鲁棒性。
这些与实践紧密结合的工作反映了商汤如何把实践中遇到的问题抽象为研究问题,以及如何利用研究推动自身的商业边界。
而除了自身应用息息相关的相关问题之外,当商业公司趋向成熟,也会以支持基础研究的形式吸引最优秀的研究者来到公司,进行前沿的基础研究也是公司「秀技术肌肉」的好方法。
当前深度神经网络的结构往往对最终结果有着重要影响,神经网络自动设计算法因此在近年引发大量关注。商汤科技本次 CVPR 三篇 oral 论文之一,Practical Block-wise Neural Network Architecture Generation 就致力于解决面向自动设计网络结构的难题。论文第一作者 Zhao Zhong 在采访中特别强调了商汤为研究提供的大量计算资源:这是商业公司相比于实验室在基础研究方面的一个重要优势。
除了从宏观的角度对商汤的全体论文进行解读之外,机器之心向三位来自商汤、主攻不同研究方向的本届 CVPR oral/spotlight 环节入选论文作者提出了 几个问题,呈现一线研究者视角下的 CVPR。
三位研究者分别是:
- Zhao Zhong:Practical Block-wise Neural Network Architecture Generation 第一作者,自动化网络设计方向
- Dapeng Chen:Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification 第一作者,行人再识别方向
- Chao Dong:Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning 第二作者,底层计算机视觉与强化学习方向
能否用一句话概括一下你本次 CVPR 的文章主题,并用一段话简述一下文章内容。
Zhao Zhong(简称 Z):自动设计网络结构的算法框架 BlockQNN。
本次我作为第一作者发表的论文提出了一种基于强化学习的网络结构自动设计算法,通过「网络块」的设计思想,让搜索空间大大降低,并且使设计的网络具有非常强的可迁移性。同时,我们使用了「提前停止」和分布式架构来加速整个网络结构学习过程,达到了百倍于之前算法的速度(32 块 GPU,3 天的训练)。实验表面,其生成的网络结构在 CIFAR 数据集上达到并且超越人类设计的网络结构的精度,并且结构可以迁移到大规模的 ImageNet 数据上,取得优异的分类性能。
Dapeng Chen(简称 D):引入组一致性约束条件的高精度行人再识别。
行人再识别是新一代智慧城市系统中的重要组件之一。给定一幅行人图像,行人再识别要求跨不同摄像头,对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习,因而不能精确的学习行人图像之间的视觉相似度。
本次我们的这篇论文针对该问题提出一种新颖的组一致性约束条件,并通过连续条件随机场对该约束条件进行建模。将该随机场加入深度神经网络,实现了该深度模型的端对端训练。实验结果表明提出的一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性,实现高精度的行人再识别。该论文是本次 CVPR 大会在行人再识别方向唯一的一篇 oral 论文。
Chao Dong(简称 C):使用多个小型 CNN 专家以协作方式解决困难的真实图像复原任务。
在底层视觉算法领域,卷积神经网络(CNN)近年取得了巨大的进展,在诸如去模糊、去噪、去 JPEG 失真、超分辨率等图像复原任务上已经达到了优异的性能。但是现实图像中的失真往往更加复杂,例如,经过多个图像降质过程后,图像可能包含模糊、噪声、JPEG 压缩的混合失真。这类混合失真图像对目前的图像复原算法仍然充满挑战性。
近期的一些图像复原工作(如 VDSR、DnCNN 等)证实了一个 CNN 网络可以处理多种失真类型或不同失真程度的降质图像,这为解决混合失真问题提供了新的思路。但是,这类算法均选用了复杂度较高的网络模型,带来了较大的计算开销。另外,这些算法的网络均使用同一结构处理所有图像,未考虑一些降质程度较低的图像可以使用更小的网络进行复原。
针对现有图像复原 CNN 算法模型复杂,计算复杂度高的问题,这篇论文我提出的 RL-Restore 算法弥补了这些不足,以更加高效灵活的方式解决了复杂的图像复原问题。
你的研究方向是什么?本次 CVPR 投稿论文在你的研究方向上处于什么位置?
Z:我的研究方向是自动化网络设计。
这篇文章在投稿时是性能先进的自动网络结构设计算法。但过了半年多,后续又出现了很多新的优秀工作,我们本身也在继续迭代研究新的方法。
D:我的研究方向集中在视频监控中的行人再识别问题。
近三年来我一直从事行人再识别问题中相似性测度学习的研究,之前的研究以非深度学习的方法对测度学习的形式和空间约束等进行研究(发表论文收录于 CVPR'15、CVPR'16、IJCV'17),主要应用于小规模训练数据。这次的投稿是将深度神经网络与传统概率图模型相结合,以样本之间的相似性为对象构建条件随机场,约束行人特征的学习过程。
C:我的研究方向是底层计算机视觉,包括图像和视频等画质增强,超分率,去噪等。
本次投稿论文对我来讲是非常重要的一篇工作,我们首次利用增强学习的方法解决图像处理问题,是用一种全新的思路解决,更加贴近真实场景的实际问题,也是一次大胆的尝试,我们希望它能够激发更多人的灵感,带来更多优秀的成果。
如果让你对今年 CVPR 的近一千篇论文进行分类,你会以什么为标准进行分类?分成哪些类别?
Z:我会按照题目和方法的创新度来分类:1)提出新问题用老方法解;2)在老问题上提出新方法;3)在别人的已有方法基础上做修改;4)发现新问题提出新方法解决。
D:根据不同方法解决问题的数据模态,我将方法进行了分类,这是因为不同数据类型所包含的信息有各自的特点,因此处理的方式很有很大的不同。不同数据的模态包括:图像数据、视频数据、点云数据、文字数据以及音频数据
C:我可以简单的把 CVPR 论文分成三类,一类是理论性较强的论证性论文,一类是偏重应用但关注的仍是传统问题或数据集的论文,最后一类是提出并尝试解决一些真实问题的论文,这些论文在今年越来越多,人们开始关注那些真实的场景,比如去噪方面已经不再局限在高斯噪声,而是关注拍照应用场景中的实际噪声,并有新的数据集出现。
在你的研究中,除了深度学习之外,还引入了哪些机器学习/数学/物理学概念?为什么考虑结合深度学习与这个特定概念?
Z:我还引入了强化学习,其能够自动设计网络结构而没有确定的优化方式,所以基于试错的强化学习是一种比较合理的解决方案。
D:我引入了经典图模型中的条件随机场模型。条件随机场是一种能够描述变量之间依赖关系的数学工具,与深度学习结合在图像语义分割等问题中已经得到了一定的应用。这次投稿的论文中,深度条件随机场的用法与众不同: 之前深度条件随机场通常将像素值建模为模型中的随机变量,建立一张图像中像素与像素之间的依赖关系。而这篇论文提出的方法以不同图像之间的相似性作为随机变量,建立了不同样本之间相似性的依赖关系进行特征学习。
C:我这两年在关注增强学习,并尝试结合增强学习与深度学习,解决一些单一深度学习框架不能解决的问题。深度学习对于动态规划决策一类的问题无法很好的解决,而增强学习可以弥补这个缺陷,将深度学习的模型融入增强学习的框架中,可以延伸深度学习解决问题的范畴,发挥更大的力量。
你在与同行交流你的这篇工作时被问到最多的问题是什么?
Z:该工作用了多少 GPU 卡?自动设计的网络以后真的能取代调参侠么?
我们在工作中使用了 32 块 GPU,从目前该方向的发展趋势来看,自动设计的网络架构能够在 1-2 年内替代人类的手工设计。
D:为什么在这篇论文中要提出群组相似性的概念而使用 CRF 建模?
因为图像之间的相似性本身很难定义。两张图片是否相似往往能够通过与更多的图片比较获得,因此建立利用更多图片并建立它们之间的依赖关系能够建立更加合理的相似性描述。
C:增强学习的框架是否很难训练,初学者如何上手?
我们的论文网页上提供相应的训练和测试代码,会帮助想学习的人快速起步,掌握要领。
除了自己的研究方向外,本届 CVPR 你最感兴趣的方向是什么?为什么?
Z:深度学习的可解释性,深度学习火了这么多年还是没有在原理上解释的突破,而且学界也非常想从原理上来指导设计网络结构。
D:3D 视觉方向。首先,3D 信息能够展示与图像不同维度的信息,是对图像信息的进一步补充,与图像结合具有更加广阔的研究空间。此外,在目前自动驾驶和机器人研究火热的氛围中,3D 视觉领域的应用有着强烈的应用需求,更有可能将研究的成果应用到实际的产品中,实现研究对社会的价值。
C:我开始关注人脸编辑这个方向,比如美妆,美颜,人脸老化等。主要原因是这个方向的产品开始逐渐增多,也越来越受到大众的喜爱。
商汤为你的研究带来了哪些帮助?自己有哪些提升和感受?
Z:感谢商汤给我的研究提供了大量的计算资源,没有这些 GPU,这个工作单单在高校实验室是不可能完成的。还有就是和商汤研究院里研究员们的讨论氛围非常浓,容易产生更多的研究想法。
D:商汤科技有着天然的应用需求,强大的深度学习平台和硬件支持,鼓励创新的氛围以及一起奋斗的小伙伴。
C:商汤提供了一个非常广阔的平台,我们可以和客户面对面的交流互动,深入了解客户的需求,清楚实际问题和论文的差距。同时商汤有非常多优秀的员工和实习生,与他们在一起工作是很开心的事情。当然,商汤的工作也是非常紧张快节奏的。
本文为机器之心原创,转载请联系本公众号获得授权。