看球,我选上帝视角

简介: 4:3,梅西回家了;2:1,C罗也回家了,这届世界杯真是激烈又精彩。但对于无法前往现场的(伪)球迷们,只能屈身于手机、电视的平面看直播了吧? 在新技术应用一个接一个的今天,到底有没有更新、更技术的方式,重新定义一下看个球?

image


4:3,梅西回家了;2:1,C罗也回家了,这届世界杯真是激烈又精彩。

但对于无法前往现场的(伪)球迷们,只能屈身于手机、电视的平面看直播了吧?

在新技术应用一个接一个的今天,到底有没有更新、更技术的方式,重新定义一下看个球?

试想一下:如果可以通过AR设备,将赛况实时投到桌面上,并且随你移动,还能尽览不同视角、不同距离的全场景球况,该是多么过瘾的一种选择。

噫……这是把世界杯搬到了任意桌面了么?而且还能各个角度绕着球场看比赛——就算身在现场也做不到啊!

恭喜你,这种“上帝视角”,可能不久就能实现了。

就在最近,华盛顿大学、Google和Facebook的研究人员开发了一套桌面足球系统,能将世界杯视频重建,转换成动态3D视频。通过AR设备,可以看到渲染后的球员动作和场地效果。

拥有了这个系统,感觉宛如拥有了整个球场,这到底是怎么做到的?

3D转换的秘笈
桌面看球的大思路其实很简单。

只要充分利用球场部署的多角度相机,之后通过多视角几何技术,对场地和玩家进行三维重建,2D世界杯就升级为3D场景了。

因此,研究人员提出了这样的思路——

先收集Youtube上世界杯球赛视频,根据场地线来推断相机的位置等参数。

image

随后,提取视频中的边界线、球员姿势和运动轨迹,将球员和场地分割,方便下一步加工。

image

“质壁分离”后,对球员进行单独的渲染处理来实现立体效果。研究人员用视频数据训练深度神经网络模型,在球场上重建每个球员的景深图,为实现360度无死角看球打基础。


image

最后,如果你有AR设备……用AR设备或者3D查看器渲染一下,3D看球美美哒。

image




思路没错,但紧接着问题就来了:

想训练神经网络模型根据球员图像来估计他的景深图,最理想的数据集里,应该包含着一对对的球员照片vs.景深图。

这样的数据集上哪找?

研究人员想到了EA出品的FIFA系列游戏。截取FIFA游戏引擎与GPU之间的调用信息,不就能从视频游戏的框架中提取景深图了嘛。



image

机智。

现在数据完备,就差个能够预测景深的神经网络了。

研究人员选取了“沙漏网络模型”,用一连串残差模块,像一个个沙漏一样来处理输入,经过8个“沙漏模块”实施降低输入的分辨率、放大等步骤,输出的,就是我们所需要的景深图。

重建3D球赛,Go!
准备阶段完成后,研究人员开始重建3D场景。整个流程一气呵成,犹如进入了快餐店后厨——

大概分为以下几步:

1.相机位置估计:用一个合成的平面场模板预估真实场景中每帧的参数,进一步找到相机在每个连续帧中的姿态。

2.球员检测和追踪:提取球员的边界box检测到的关键点/骨架,基于姿态信息对初始的边界框进行细化,再根据提取的边框序列预计球员的运动轨迹。

3.实时实例分割:预估每个球员用于深度预估网络的分割掩码,借助语义分割和前一步的姿态估计。

4.网格生成:将上一步的前景掩码与原始裁剪图像混合,放入一开始预先训练好的神经网络中进行训练。

5.形成3D轨迹:减少相机位置和边界框定位时不精确带来的球员抖动,对3D球员轨迹进行平滑处理。

一连串操作至此,3D合成大功告成。

研究人员将此模型的3D生成结果与原视频和不同方法合成的结果进行了对比。


image

渲染后得到最后的效果图:

image

毫无疑问,这种方法可以得到更精确和完整的深度估计,重建的效果也最好。

美中不足
虽然场景不错,但这项技术目前并不完善,还不能让你随心畅看。

Bug 其实很明显,刚在观看效果的时候,各位有没有看见足球?

——冇。

没错,目前这套系统最大的问题就是还没有对足球进行处理,球的轨迹无法渲染出来,场上一票球员如同在踢“空气球”。



此外,系统对球员及守门员的(位置)把控不够准确,被遮挡的球员显示不完整。这就导致球员有时球员会突然消失,然后突然出现,犹如习得传送大法。



△ 迷离消失的守门员
在论文中,研究人员表示,目前这项技术还在不断改进和升级中,下一部的计划是:

改善画面重建的品质

实现实时3D重建

预估足球的位置

让这项技术也能用于其他运动,让篮球、橄榄球、排球等等运动的球迷也能同此待遇。

华盛顿大学出品
这项研究的论文Soccer on Your Tabletop发表在CVPR 2018上,作者有四,均属于华盛顿大学(张亚勤母校)的GRAIL lab实验室,分别为Konstantinos Rematas、Ira Kemelmacher-Shlizerman、Brian Curless和Steve Seitz.



△ 一作Konstantinos Rematas
如果觉得这项研究和你胃口,可移步传送门深入挖掘。

论文地址:

http://grail.cs.washington.edu/projects/soccer/soccer_on_your_tabletop.pdf

代码地址:

https://github.com/krematas/soccerontable

原文发布时间为:2018-07-01
本文来自云栖社区合作伙伴“ 量子位”,了解相关信息可以关注“量子位”。

相关文章
|
监控 Shell Go
如何自己写一个telegraf的插件
之前有个特殊需求要自己搞一个telegraf的插件,就顺手写了这个小指南,go初学者级别吧
1779 0
|
安全 Java Maven
最小化 Java 镜像的常用技巧
随着容器技术的普及,越来越多的应用被容器化。人们使用容器的频率越来越高,但常常忽略一个基本但又非常重要的问题 - 容器镜像的体积。本文将介绍精简容器镜像的必要性并以基于 spring boot 的 java 应用为例描述最小化容器镜像的常用技巧。
4939 0
|
传感器 机器学习/深度学习 数据采集
2022年第十一届认证杯数学中国数学建模国际赛小美赛:C 题 对人类活动进行分类 建模方案及代码实现
本文提供了2022年第十一届认证杯数学中国数学建模国际赛小美赛C题"对人类活动进行分类"的建模方案和Python代码实现,包括数据预处理、特征提取、LSTM网络模型构建和训练评估过程。
468 11
2022年第十一届认证杯数学中国数学建模国际赛小美赛:C 题 对人类活动进行分类 建模方案及代码实现
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
1060 9
|
数据挖掘 Python
如何将动态IP代理转换为静态IP代理的方法与步骤
如何将动态IP代理转换为静态IP代理的方法与步骤
780 6
|
网络架构
定义vue-router的动态路由以及如何获取传过来的动态参数
定义vue-router的动态路由以及如何获取传过来的动态参数
596 1
|
监控 安全 关系型数据库
OceanBase数据库完整版和商业版的主要区别在于
OceanBase数据库完整版和商业版的主要区别在于
546 3
|
XML SQL 数据可视化
【BackEnd】SpringBoot整合MybatisPlus实现登录注册功能(适合初学者)
适合新手的SpringBoot整合MybatisPlus实现登录注册功能,附Gitee工程代码地址
1087 0
|
存储 弹性计算 监控
企业邮箱介绍_阿里企业邮箱_阿里邮箱企业版
企业邮箱介绍_阿里企业邮箱_阿里邮箱企业版
1562 4
|
存储 SQL 运维
快速上手 Hologres(一)|学习笔记
快速学习 快速上手 Hologres(一)
1118 0
快速上手 Hologres(一)|学习笔记