CVPR 2022 | 高质量捕捉人物动作,网易互娱AI Lab提出高效视频动捕技术

简介: CVPR 2022 | 高质量捕捉人物动作,网易互娱AI Lab提出高效视频动捕技术

iCap是网易互娱AI Lab研发的一款产品级的视觉动作捕捉工具,近日研发团队已将手部动作捕捉部分的算法进行了整理,相关论文已被CVPR 2022接收。


动作捕捉技术在影视和游戏行业已得到广泛的应用,其中最常用的技术方案是光学动作捕捉。光学动捕需要演员穿着紧身动捕服,并且在身上粘贴光学标记点,在配置好光学动捕设备的场地进行表演和动作录制。光学动捕设备通常价格不菲,同时还需要固定的室内场地,使用成本和门槛较高,很多小型动画工作室只能望而却步。如果可以从手机拍摄的视频中高精度地捕捉人物动作,那将是动画师的福音。



相比于传统光学动作捕捉流程,iCap有以下优势:

1.快速产出:能够快速产出动作数据,更适用于敏捷开发,方便前期试错;2.随时随地:只需光照条件足够让拍摄清晰,便可随时随地拍摄视频,产出结果;3.节约人力,节约成本。

值得一提的是,iCap不仅支持身体关节数据捕捉,也支持手部数据捕捉。近日,网易互娱AI Lab已经将手部动作捕捉部分的算法进行了整理,相关论文已被CVPR 2022接收。


论文链接:https://arxiv.org/pdf/2203.16202.pdf

现有的手部动作捕捉方法大部分是将手部信息和身体信息分开考虑的,即这些方案的输入是单纯的手部视觉信息。这样做的问题是,捕捉到的手部动作可能会和手臂动作存在不匹配,不协调的情况,在整合进全身动作捕捉数据时容易产生不合理的姿态。另外,现有的手部动作捕捉方法大多都只考虑了当前帧的信息,未能考虑帧间连续性,输出的动作容易出现抖动,也难以应对复杂的手部动作捕捉场景(模糊、遮挡等)。这些问题都导致现有方案比较难以推向实际应用。

为解决现有方案的痛点,网易互娱AI Lab提出了解决方案,该方案的主要贡献点如下:

1.考虑到手臂动作和手部动作之间的相关性,设计模型同时预测手臂和手部动作;通过利用此相关性,输出的手臂和手部姿态会更加合理;2.通过两个transformer模型分别在时间和空间维度上提取相关性信息,使得手臂和手部的相关性能够更好地被利用,与此同时也能输出帧间连续的结果;另外,论文还定制了合适的目标函数以获得准确而稳定的输出序列。方法介绍
此项工作的目标是从视频中捕捉手臂和手的动作,具体地,此方案以骨骼旋转量来表示动作。实现上述目标最简单的思路是直接学习一个图像到骨骼旋转量的映射,但这就需要有能够和动作捕捉数据逐帧匹配图像数据(即和动作捕捉数据对齐的视频),这通常是难以获取的。研究者认为,直接从图像输入中学习旋转量信息难度要大于从关键点输入中学习旋转量信息,因为前者缺少训练数据,后者则可以很方便地从动作捕捉数据中提取出(输出关键点,输出旋转量)数据对。基于上述分析,方案的整体框架主要包括了一个关键点预测模块和一个旋转量估计模块。

下图展示了iCap中手部动作捕捉算法的整体框架。


模型结构
手部动作捕捉方案由两个模块组成,一个是关键点预测模块,另一个是旋转量预测模块。我们首先获取手部2D关键点以及手臂处的3D关键点,然后在基于这些关键点,设计了合适的模型用来估计旋转量。

关键点预测模块包含一个手部2D关键点定位模型和一个手臂3D关键点预测模型。手部2D关键点定位模型是基于MobileNetV3结构设计的,具体结构是基于one shot NAS搜索得出。手臂3D关键点则直接采用CVPR 2018的VPose3D预测全身3D姿态,再从中提取手臂关键点。

旋转量预测模块主要包含两个Transformer模型,一个是Temporal Transformer,一个是Spatial Transformer,整个模块称为Spatial-Temporal Parallel Arm-Hand Motion Transformer(PAHMT)。

Temporal Transformer的主要目标是提取手臂和手部动作的时序先验信息,以求输出帧间连续的动作数据。Spatial Transformer的主要目标是提取手臂姿态和手势姿态之间的全局相关性(挥动手臂往往和挥动手掌高度相关)以及不同关节点之间的局部相关性(譬如无名指的运动通常会带动中指和小拇指)。

对于一段输入序列,将其Reshape成不同形状以作为两个Transformer的输入。不论是全局相关性还是局部相关性,他们在不同帧之间都应该保持一致,故论文受到ViT中的classification token的启发,设置了一个可学习的regression token,用来表征空间相关性特征。我们将Spatial Transformer输出的空间相关性特征和Temporal Transformer时序特征进行逐元素相加(element-wise adding)得到最后的特征,最后经过一个简单的回归网络得到最后的输出。

目标函数
用来引导模型训练的目标函数主要包含两个部分,一部分是重建目标函数,一部分是对抗目标函数。


对抗目标函数的主要目的是引导模型输出具有“真实感”的手臂和手部动作。

重建目标函数是负责去学习骨骼旋转量的,主要由三个部分组成,L1 loss,FK loss和帧间平滑loss,


重建损失的基本目标是L1 loss。


考虑到在以骨骼树的形式表示一个姿态的旋转量的时候,不同关节的重要程度是不一样的(父节点的旋转量会直接影响到子节点的位置,故同样的旋转误差作用于父子节点时,父节点带来的整体误差更大),论文引入了FK loss,即对输出旋转量通过FK函数计算得到关节点位置,用它与ground truth关节点位置计算loss。


考虑到帧间连续性,论文还引入了帧间平滑loss。


实验结果
由于缺少包含手部数据的开源动作捕捉数据集,研究者收集了一套包含身体关节和手部动作的动作捕捉数据,数据包含500段动作,总计约20万帧。该动捕数据主要包含了一些舞蹈和体育动作,覆盖了很多肢体动作和手势。研究者对该数据进行了划分(90%训练集,10%验证集),在此动作捕捉数据集上训练模型并进行了消融实验对比。下图展示了该数据的样例。


另外,论文还通过动捕数据渲染得到了一批包含手部动作标签的视频数据,用来和state-of-the-art算法进行对比。下图展示了渲染数据集的样例。


  • 评价指标:论文同时以MPJPE(Mean Per Joint Position Error)和MPJRE(Mean Per Joint Rotation Error)作为评价指标;
  • Baseline: 模型backbone为普通CNN,目标函数只包含对抗损失和L1 loss,输入输出和论文提出的方案一致,训练涉及的batch size,learning rate等信息均与消融实验中其他方法一致;
  • AHMT:只考虑Temporal Transformer的方案;
  • h2h和ah2ah:h2h表示输入手部关键点输出手部旋转量;ah2ah表示同时输入手臂和手臂关键点并同时输出手臂和手部旋转量。


下表展示了消融实验的结果。结果显示,通过利用帧间相关性信息,普通Temporal Transformer表现出显著优于CNN的性能。而通过引入Spatial Transformer来利用手臂姿态和手势姿态之间的全局相关性以及不同关节点之间的局部相关性之后,实验误差继续显著降低(MPJPE降低13%,MPJRE降低16%)。对于目标函数,可以看出单独引入FK loss能够降低实验误差,而单独引入帧间平滑损失则于误差降低无益,这是因为帧间平滑损失的主要目标是提高输出的帧间连续性。但值得注意的是,当FK loss和帧间平滑损失结合使用时,实验误差比单独使用任意一种都更低。综上所述,实验验证了论文提出的并行时空transformer结构以及目标函数的有效性。


下表是论文方案和state-of-the-art算法(ExPose,FrankMocap)在渲染数据集上的实验结果,结果表明论文方案显著优于之前的state-of-the-art方法。


下图展示了论文方案和state-of-the-art算法的直观对比,第一行是一些包含识别难度较高的手部动作的视频帧,第二行是FrankMocap的结果,第三行是ExPose的结果,最后一行是论文方案的结果。不难看出论文方案表现出了明显更佳的准确性和鲁棒性。


网易互娱AI Lab提出了一套高效的手部动作捕捉算法,该算法在准确性和稳定性上都显著优于现有的方案。目前该算法已接入其视觉动作捕捉产品iCap中,并持续帮助多个游戏工作室进行动作资源辅助生产。

相关文章
|
4天前
|
机器学习/深度学习 人工智能 算法
【AI问爱答-双十一返场周】第二场企业办公视频
【AI问爱答-双十一返场周】探讨AI大模型时代对企业办公的影响。AI员工旨在辅助而非替代人类,通过深度学习、大规模训练数据和自我监督学习提升效率。视频介绍生成式智能工具如全妙系列,助力企业内容生产。关注AI问爱答,了解更多AI技术与应用。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
39 11
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
|
3天前
|
人工智能 Java 程序员
通义灵码AI编码助手和AI程序员背后的技术
通义灵码AI编码助手和AI程序员背后的技术,由通义实验室科学家黎槟华分享。内容涵盖三部分:1. 编码助手技术,包括构建优秀AI编码助手及代码生成补全;2. 相关的AI程序员技术,探讨AI程序员的优势、发展情况、评估方法及核心难点;3. 代码智能方向的展望,分析AI在软件开发中的角色转变,从辅助编程到成为开发主力,未来将由AI执行细节任务,开发者负责决策和审核,大幅提升开发效率。
47 12
|
4天前
|
人工智能 自然语言处理 机器人
【AI问爱答-双十一返场周】第一场营销电商视频
【AI问爱答-双十一返场周】第一场营销电商视频聚焦双11期间京东电商与营销领域的AI应用。本期探讨大语言模型、Stable Diffusion等技术,介绍PAI工具如何简化AI应用搭建,并邀请中科深智CEO成维忠分享数字人技术在直播带货中的成功案例。关注AI问爱答,扫码了解更多AI技术和促销内容。
|
2天前
|
机器学习/深度学习 人工智能 编译器
BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术
本文介绍了阿里云 PAI 团队近期发布的 BladeDISC++项目,探讨在动态场景下如何优化深度学习训练任务的显存峰值,主要内容包括以下三个部分:Dynamic Shape 场景下显存优化的背景与挑战;BladeDISC++的创新解决方案;Llama2 模型的实验数据分析
|
2天前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
|
4天前
|
人工智能 边缘计算 双11
【AI问爱答-双十一返场周】第三场社交娱乐视频
【AI问爱答-双十一返场周】第三场社交娱乐视频探讨了AI在社交、教育和培训中的应用,特别是虚拟导师和教练的角色。邀请听力熊联合创始人苟津川分享AI在智能教育硬件领域的探索与挑战,包括云端协同、端侧模型优化及数据安全问题。欢迎持续关注并参与互动。
|
2天前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。
|
4天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
12天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
77 31

热门文章

最新文章