CVPR 2018现场见闻

简介: 计算机视觉顶级会议 CVPR 于 2018 年于 6 月 18 日在美国盐湖城召开。一年一度的 CVPR 收录了来自全球学者的最新研究,这里不仅是学术界交流的盛会,还是产业界展示成果的平台。

计算机视觉顶级会议 CVPR 于 2018 年于 6 月 18 日在美国盐湖城召开。一年一度的 CVPR 收录了来自全球学者的最新研究,这里不仅是学术界交流的盛会,还是产业界展示成果的平台。随着算法与硬件的飞速发展,计算机视觉、人工智能等技术在我们的生产和生活中的应用越来越普及,与此同时,CVPR 会议本身也在不断地发展和变化。

CVPR 如同一个风向标,向我们展示了在最近一年里该领域的关注热点和最优秀的成果。笔者全程参与了本届 CVPR 会议,在这里与大家分享本届会议的特点、最新的研究热点和该领域相关企业的动向。

会议规模显著扩大

今年 CVPR 的论文投递数逾 3359 篇,相比去年增长约 25%。而论文接收率几乎不变(约 29%),最终被接收的论文多达 979 篇。从如此大量的论文中挑选出符合 CVPR 品质的论文绝非易事,会议组织了 2385 名来自世界各地的优秀审稿人进行评审。同时,参会人数多达 6500 余人,比去年增长约 30%。

因此,正如会议的 general chair,Michael Brown 教授所说,参会者不可能在 5 天的时间里顾全所有的事情,你必须做出取舍,这样才能充分的利用时间。的确如此,在主会议期间,每天都会并行地开展 3 场 oral/spotlight 报告,参会者需要提前了解并从中选择自己最感兴趣的话题来听。

image


image

▲ 图说:CVPR的参会人数和投稿数都出现了大幅增长

除了论文数量明显增长,今年赞助商的数量和赞助金额也明显增长。会议拥有来自全世界的 149 家赞助商,共接收赞助/展示费用达 200 万美元。可以看到,产业界对 CVPR 这一学术会议显示出了极大的兴趣,这也从侧面反映了计算机视觉、人工智能等方面的研究在实际场景中有巨大应用价值。赞助商除了在会场以丰富的形式展示各自的产品和研究成果以外,还提供了大量的招聘和实习岗位,希望吸引来自该领域的精英加入他们。一部分参会者就是冲着这些名企的招聘来,对他们来说这里也相当于是一场招聘会。

值得注意的是,无论是论文发表还是赞助商方面,华人都贡献了巨大的力量。在已接收的论文中,华人作者所占比重相当可观。在 9 家钻石赞助商中,中国企业就有 3 家;在 20 家铂金赞助商中,中国企业占到 9 家。一个最直观的感受是,在会议现场,中国人面孔非常普遍。在参加 poster 展览时,常常一篇 poster 面前全是中国学者,这个时候作者也许会索性用中文给大家讲解。参会的人面前都挂着自己的名牌,上面写有姓名和学校/单位,会议现场常常有人看了一眼笔者的名牌,然后就开始用中文打招呼。在这种氛围下,虽然身处美国,也有一种宾至如归的感觉。

企业参与度极高

相关领域的企业通过多种方式深度参与了本次会议。

首先,在主会期间,大量赞助商在会场展示区通过多种形式展示了各自的研究和应用。有以视频 Demo 形式展示的,比如字节跳动(ByteDance),他们以世界杯比赛视频为例展示了基于计算机视觉的足球比赛理解技术。该技术能够对球员和足球进行实时的追踪和分割,并且能自动生成鸟瞰图。目前正值俄罗斯世界杯期间,这样的展示很容易吸引参观者围观。公司旗下的短视频应用非常火爆,他们也展示了对于短视频中多人物的实时姿态检测,以及基于这些技术的有趣应用,比如抖音尬舞机,让人印象深刻。


image

▲ 字节跳动的系统可以基于计算机视觉,理解足球比赛技术

现场还有以视频或实体模型形式来展示的公司,比如 Momenta、图森科技、AURORA 等。京东展示了仓库巡逻机器人等无人仓库场景下的智能产品。还有以用户互动形式来展示的公司,比如商汤科技允许用户坐在模拟驾驶位,展示其对司机驾驶状态、目光注意力以及司机手势的识别能力;Adobe 则允许用户在触摸板上画出一个人像,然后算法会对其自动上色。会场中,各个企业展示了涵盖智能监控、自动驾驶、无人商店和智慧理疗等多个重要领域的 AI 应用,显示出 AI 落地的广阔前景。

除了在主会展示,各大企业都在不同场所分别组织了 party,邀请 CVPR 的参会者参与。笔者参与了商汤、字节跳动(旗下有今日头条和抖音等产品)和 Momenta 的聚会。在活动中,企业详细介绍了自己的企业文化、主要产品和研究方向,以及未来的发展规划。以字节跳动为例,作为国内发展势头迅猛的 AI 企业,它已经开始了全球布局,例如在包括美国硅谷在内的全球各地设立 AI 实验室,从而招募更多的行业精英。以数据挖掘、内容推荐为驱动的今日头条吸引了大量用户。基于视频理解技术,它在短视频、视频直播等应用上也推出了极具创新的应用,助使其打造 AI+ 娱乐应用新模式。在宴会期间,笔者与同一桌的参会者进行了交流。他们都是来自中国的在读博士,除了一位来自英国帝国理工大学,一位来自同济大学,其余都来自美国的各个不同大学。

值得注意的是,企业同时也是 CVPR 会议中重要的论文发表者。据统计,论文发表数名列前茅的是,谷歌发表 45 篇,商汤科技发表 44 篇,Facebook 发表 35 篇,腾讯 AILab 发表 21 篇。可以看到,相关 AI 企业展示出越来越强大的科研实力和科研热情。产业界在实际应用中会第一时间发现问题、提出问题并迅速寻找解决方案。通过学术论文的发表,产业界与学术界共同分享新的思路和想法,这对学术的发展起到了很好的推动作用。如今,产业界和学术界的联系越来越紧密,在 AI 领域,真正做到了高效的产学研结合,这对整个 AI 生态的高效可持续发展是至关重要的。

研究热点概览

深度学习在计算机视觉领域继续发挥重要作用。众所周知,深度学习是数据驱动的,在这个数据为王的时代,收集和标注大量的数据来训练模型往往是实际场景中提升性能最简单有效的办法。然而,即便是有大量人力物力的企业,也很难对手头的海量数据完全标注,因此,半监督/弱监督学习是一个十分重要的课题。

以语义分割任务为例,研究者往往会采用图像类别标签进行弱监督学习。利用类别概率的响应热图(class activation map 或 peak response map)产生初始分割,不同的文章在后续进行各自的处理,从而实现弱监督的图像语义分割。

关于数据的另一个问题是,即使我们在一个庞大的数据集上训练得到了很好的模型(以验证集为评价依据),当我们将其投入实际应用时,可能会因为该场景下的数据分布与已有的数据分布有较大差异,性能明显下降。例如,这一问题在行人再识别中尤其明显,由于摄像头参数、光照等原因,实际场景可能会遇到分布很不相同的数据。迁移学习(Transfer Learning)是解决这一问题的常用思路,这也是本次会议论文的一个重要方向。

生成对抗网络(GAN)依然火热,在多种应用中都发挥了重要作用。比如,本届 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》,想要解决人脸检测中尺度多变的问题。为了更好地检测图像中较小的人脸,它利用生成器将低分辨率图像转换为高分辨率图像,并设计了两路的判别器,对高分辨率/低分辨率、人脸/背景进行判断。该方法能有效地对低分辨率的 proposal 进行超分辨率变换,并且能保持其原有的类别(人脸或背景),从而有效地帮助检测图像中分辨率很低的人脸。在其他方面,我们也看到了许多关于 GAN 的应用。

随着深度学习应用落地,在很多场景下可利用的存储和计算资源受限,比如在手机端、自动驾驶车辆上。因此,关于模型压缩、计算加速的文章也是非常重要的课题。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》,提出了通过平移feature map和使用卷积的方式,来取代传统的卷积,从而极大地缩小模型尺寸、减小计算量,并且由于去除了隐层特征中的冗余信息,该方法还能带来识别率上的提升。

笔者来到这篇文章的 poster 面前时,发现围观的人群已经挤满了位置。展板前面一位面似中国人的帅小伙在声情并茂地为大家讲解,而且他的口语十分地道。后来等到人群散去,我与他交流才发现原来他是美国人,不会说中文。他看到我的名牌后说,他的 mentor,即本文的第一作者,也来自清华。我与这位学长沟通后知道,原来他也是清华电子系毕业,在伯克利读博,已经五年级了。他向我介绍了他们实验室目前在于自动驾驶公司合作,做的项目专注于深度学习的模型压缩、加速,以及基于激光雷达的语义分割等。他们还举办了本届 CVPR 的一场 workshop:Efficient Deep Learning for Computer Vision。笔者参加了这场 workshop,有许多大牛来讲解了在硬件资源受限的情况下,高效地设计和使用神经网络的相关技术和研究。

获得了 ImageNet 2017 冠军的 Squeeze-and-Excitation Networks 也在现场进行了讲解,Oral 的时间虽然是早晨 8 点多,但依旧吸引了大批观众,Poster 前更是聚拢了一大群交流的学者。SE 架构大幅提升了模型的精度。通过引入全局图像的信息自动对卷积特征重新分配权重,增强对分类有用的特征,而抑制无效或收益甚微的特征。在只引入极少的计算量和参数量的情况下,可以将现有的绝大多数 CNN 的性能进行大幅提升。

原文发布时间为:2018-07-07
本文作者:万纬韬
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”。

相关文章
|
3月前
|
存储 人工智能 文字识别
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…
582 0
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
|
传感器 自动驾驶 算法
SLAM:SLAM(即时定位与地图构建)的简介、发展、案例应用之详细攻略
SLAM:SLAM(即时定位与地图构建)的简介、发展、案例应用之详细攻略
|
安全 Java API
解决 Swagger API 未授权访问漏洞:完善分析与解决方案
Swagger 是一个用于设计、构建、文档化和使用 RESTful 风格的 Web 服务的开源软件框架。它通过提供一个交互式文档页面,让开发者可以更方便地查看和测试 API 接口。然而,在一些情况下,未经授权的访问可能会导致安全漏洞。本文将介绍如何解决 Swagger API 未授权访问漏洞问题。
|
4月前
|
网络虚拟化 虚拟化 Docker
记一次Windows端口占用问题排查
netstat命令排查不出的Windows端口占用问题的解决方案,附快速排查脚本
445 0
|
5月前
|
人工智能 负载均衡 监控
使用 Go 和 Gin 实现高可用负载均衡代理服务器
本文基于Go语言和Gin框架,实现了一个企业级负载均衡代理服务器,支持动态路由、健康检查、会话保持等功能。具备高可用性与高性能,单节点支持100k+ QPS,延迟达亚毫秒级,并提供完整的压力测试方案与优化建议。
190 7
|
7月前
|
前端开发 开发工具 Android开发
小红书APP的全新鸿蒙NEXT端性能优化技术实践
从 2023 年开始,鸿蒙的优势愈发明显,已经成为可与 iOS、安卓媲美的第三大移动操作系统。从一些抖音视频中也可以看出,鸿蒙在流畅性方面甚至在某些层面上超过了 iOS。本次分享的主题是小红书在鸿蒙平台上的工程实践,主要聚焦于性能优化和探索。
529 10
|
5月前
|
Android开发 数据安全/隐私保护
安卓手机修改设备id, 安卓硬改一键新机,手机机型修改(伪装)
提供了完整的设备信息修改功能,包含设备模板配置、基础信息修改、网络信息修改、模拟器检测绕
WK
|
移动开发 UED HTML5
HTML5新增了哪些表单属性
HTML5新增的表单属性包括:autocomplete(启用或禁用自动完成建议)、autofocus(自动聚焦)、form(关联表单外的表单元素)、formaction等重写版本(自定义提交行为)、height/width(设置图像输入尺寸)、list(指定可选列表)、min/max/step(设置数值范围)、multiple(多选文件/选项)、pattern(正则表达式验证)、placeholder(占位符提示)和required(必填校验)。这些新功能显著提升了表单的灵活性和用户体验,使数据输入更加准确有效。
WK
205 1
|
安全 API 开发工具
开发api数据接口的工作步骤
本文概述了使用Python的Flask框架开发简单API数据接口的基本步骤。首先,需明确API提供的数据及其来源,确保数据的真实可靠。其次,选择合适的开发工具和技术栈,如Python结合Flask,并安装所需环境。编写代码时,应导入必要模块、创建应用实例、定义数据、设计路由及处理函数,并考虑错误处理和日志记录。测试阶段,在本地启动服务器并使用工具验证功能和性能。最后,选择合适平台部署API,并确保其稳定性和安全性。在整个过程中,需注重数据安全、代码质量及系统性能优化。
|
搜索推荐
报错信息 "busy p..."
报错信息 "busy p..."
1437 1