谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你 | ECCV2020

简介: 近日,Google引入了将二维人体姿态映射到视图不变概率嵌入空间的Pr-VIPE模型,使用15块CPU在一天时间内即可完成训练。该模型中学习到的嵌入,可以直接用于姿态检索、动作识别和视频对齐等应用。此外,研究人员还提出了一个交叉视图检索基准,可以用来测试其他嵌入的视图不变属性。

微信图片_20220112103354.jpg


我们知道,日常活动,如慢跑,读书,倒水,或运动,都可以被视为一系列的姿势。 而理解图像和视频中的姿势,是实现一系列应用的关键步骤,包括增强现实显示、全身姿势控制和体育锻炼量化等等。 


然而,在二维图像和视频中捕捉到的三维姿态,会随着相机的视角的变化而有不同的呈现。 


如果仅使用2D信息,就能识别3D姿势的相似性,那么这将有助于视觉系统更好地理解世界。 针对此问题,近日,Google更新了一项研究“人体姿态的视图不变概率嵌入”(View-Invariant Probabilistic Embedding for Human Pose)(Pr-VIPE)。 


在该研究中,研究人员提出了一种新的人体姿态感知算法,可以通过将二维人体姿态关键点映射到视图不变嵌入空间,来识别不同相机视图下人体姿态的相似性。该论文现已作为“spotlight paper”,发表在ECCV2020中。


微信图片_20220112103356.png


在这种能力的加持下,计算机可以实现如姿态检索,动作识别,动作视频同步等等任务。


微信图片_20220112103358.png


图:Pr-VIPE可以直接应用于从不同的视图实现视频的对齐


“两个观察”成为Pr-VIPE建立基石,概率映射教会机器匹配情况


Pr-VIPE的输入是一组2D关键点,这些关键点来源于至少产生13个身体关键点的2D位姿估计器,而Pr-VIPE输出则是位姿嵌入的均值和方差。


其中,二维位姿嵌入之间的距离与它们在绝对三维位姿空间中的相似性相关。

研究人员的方法主要是基于两个观察结果而提出的:


1、同样的3D姿势在2D中可能会随着视点的变化而出现非常不同的效果。


2、同样的2D姿势可以从不同的3D姿势投射出来。


第一个观察结果激发了视图不变性的需要。


为了满足这一需要,研究人员定义了匹配概率,即不同的2D姿态从相同或相似的3D姿态投射出来的可能性。


同时,Pr-VIPE预测的姿态对匹配的匹配概率,应该高于非匹配的姿态对匹配概率。


为了解决第二个观察结果,Pr-VIPE利用了一个概率嵌入公式。


由于许多3D位姿可以投影到相同或类似的2D位姿,模型输入显示出一种固有的模糊性,很难通过嵌入空间中的确定性点对点映射来捕捉。


因此,研究人员采用了通过概率映射进而映射到嵌入分布的方法,并使用方差来表示输入2D位姿的不确定性。


例如,在下图中,左侧3D姿势的第三个2D视图与右侧不同3D姿势的第一个2D视图相似,所以研究人员将它们映射到嵌入空间的一个相似的位置上,并将方差设置为一个很大的值。


微信图片_20220112103400.png


图:Pr-VIPE使视觉系统能够跨视图识别2D姿态


视图不变性(View-Invariance)


 在训练过程中,研究人员使用了两个来源的2D姿态:多视图图像和groundtruth3D姿态的投影。 


他们从batch中选取二维位姿的“三胞胎”(anchor、positive和negative),其中anchor和positive是同一三维位姿的两个不同投影,negative是一个不匹配的三维位姿的投影。 然后,Pr-VIPE根据二维姿态对的嵌入情况估计其匹配概率。


微信图片_20220112103402.png


图:Pr-VIPE模型概述


在训练期间,研究人员应用了三种损失(三重比损失,正成对损失,以及在嵌入之前应用的单位高斯的先验损失)。在推理过程中,模型将输入的2D姿态映射到概率的视图不变嵌入。 


概率嵌入(Probabilistic Embedding) Pr-VIPE将二维姿态映射为多元高斯分布,并使用基于抽样的方法,计算两个分布之间的相似度评分。 在训练过程中,研究人员使用了高斯先验损失,对预测分布进行正则化。


提出新姿态检索基准, Pr-VIPE在多个数据集上效果突出


在实验部分,研究人员提出了一个新的交叉视图姿态检索基准,来评估嵌入的视图不变性。 给定单目姿态图像,交叉视图检索的目的是在不使用相机参数的情况下,从不同的视角检索相同的姿态。 


结果表明,在两个评估的数据集(Human3.6M, MPI-INF-3DHP)中,与baseline方法相比,Pr-VIPE在各个视图之间可以检索出更准确的姿态:


微信图片_20220112103404.png


图:相对于基线方法(3D姿态估计),Pr-VIPE更准确地检索跨不同视图的姿态

常见的3D姿态估计方法(如SemGCN和EpipolarPose等)在相机坐标中预测3D姿态,而这些并不具有视图不变性。 


因此,使用估计的三维姿态检索时,每个查询-索引对之间的刚性对齐是必需的,由于需要奇异值分解(SVD),因此在计算上非常昂贵。 相比而言,Pr-VIPE嵌入可以直接用于欧氏空间的距离计算,不需要任何后处理。


提升交叉视图检索和视频对齐表现,Pr-VIPE 应用广泛


视图不变姿态嵌入可以应用于许多图像和视频相关的任务。 下面,研究人员展示了Pr-VIPE在不使用相机参数的情况下,应用于实际情况下的交叉视图检索:


微信图片_20220112103405.png


图:通过使用Pr-VIPE嵌入检测到的二维姿态


同样的Pr-VIPE模型也可以用于视频对齐。 为此,研究人员在一个小的时间窗口内堆栈Pr-VIPE嵌入,并使用动态时间规整(Dynamic Time Warping,DTW)算法来对齐视频对。


微信图片_20220112103408.png


图:手动视频对齐既困难又耗时。这里,Pr-VIPE被用于自动对齐不同视图中重复相同动作的视频。


通过DTW计算出的视频对齐距离,可以使用最近邻搜索对视频进行分类,并用于动作识别。 研究人员使用Penn动作数据集评估了Pr-VIPE嵌入,并证明了使用Pr-VIPE嵌入,可以在没有对目标数据集进行微调的情况下,获得非常有竞争力的识别精度。 此外,实验结果还表明,在使用Pr-VIPE的情况下,仅使用索引集中单个视图的视频,就可以获得相对准确的结果。


微信图片_20220112103410.png


图:和其他方法相比,Pr-VIPE的效果明显更好


总体来说,与现有的将2D姿态关键点直接映射到3D姿态关键点的模型相比,Pr-VIPE嵌入空间具有以下特点:


(1)视图不变


(2)使用了捕捉2D输入模糊度的概率


(3)在训练或推理时不需要相机参数 


使用实验室内设置数据进行训练后,在2D姿态估计器(如PersonLab、BlazePose等)足够好的情况下,该模型可以在任何其他实际场景中工作。 该模型简单,嵌入紧凑,使用15个cpu可以在1天的时间内完成训练。 


最后,Google已经在GitHub上发布了代码:


微信图片_20220112103412.png


Git地址:


https://github.com/google-research/google-research/tree/master/poem 

 

参考链接:


https://ai.googleblog.com/2021/01/recognizing-pose-similarity-in-images.html

相关文章
|
算法 数据可视化 vr&ar
【图形学】探秘图形学奥秘:区域填充的解密与实战
【图形学】探秘图形学奥秘:区域填充的解密与实战
187 0
|
分布式计算 网络协议 Java
微服务技术系列教程(20) - SpringCloud- 服务治理Eureka(替代方案)
微服务技术系列教程(20) - SpringCloud- 服务治理Eureka(替代方案)
471 0
微服务技术系列教程(20) - SpringCloud- 服务治理Eureka(替代方案)
|
传感器 JSON 监控
Springboot + oshi 实现对服务器硬件的监控
OSHI是一个免费的基于JNA的(本机)Java操作系统和硬件信息库。它不需要安装任何额外的本地库,旨在提供跨平台实现来检索系统信息,如操作系统版本、进程、内存和CPU使用情况、磁盘和分区、设备、传感器等。
1663 0
|
8月前
|
开发工具 Android开发 iOS开发
如何在Android Studio中配置Flutter环境?
如何在Android Studio中配置Flutter环境?
1912 61
|
存储 Kubernetes 负载均衡
Kubernetes设计架构
Kubernetes 是一个开源的容器编排平台,用于自动化应用的部署、扩展和管理。其设计架构高度可扩展且灵活,能管理大规模分布式系统。核心组件包括集群(含主节点和工作节点)、API 服务器、etcd、控制器管理器、调度器、Pod、服务、命名空间、配置管理、持久化存储、网络模型及扩展性支持。这些组件共同实现了应用的高效运行与管理。
321 7
|
9月前
|
数据安全/隐私保护
5分钟注册一个可用Gemini的谷歌邮箱账号
5分钟注册一个可用Gemini的谷歌邮箱账号
3350 23
5分钟注册一个可用Gemini的谷歌邮箱账号
|
分布式计算 关系型数据库 数据库
实时数仓 Hologres产品使用合集之如何转义字符串中的单引号
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
Java 应用服务中间件 数据库连接
ssm项目整合,简单的用户管理系统
文章介绍了一个使用SSM框架(Spring、SpringMVC、MyBatis)构建的简单用户管理系统的整合过程,包括项目搭建、数据库配置、各层代码实现以及视图展示。
ssm项目整合,简单的用户管理系统