效果惊艳!FAIR提出人体姿势估计新模型,升级版Mask-RCNN

简介: FAIR和INRIA的合作研究提出一个在Mask-RCNN基础上改进的密集人体姿态评估模型DensePose-RCNN,适用于人体3D表面构建等,效果很赞。并且提出一个包含50K标注图像的人体姿态COCO数据集,即将开源。

密集人体姿势估计是指将一个RGB图像中的所有人体像素点映射到人体的3D表面。

  • 我们介绍了DensePose-COCO数据集,这是一个大型ground-truth数据集,在50000张COCO的图像上手工标注了图像-人体表面(image-to-surface)的对应点。
  • 我们提出了DensePose-RCNN架构,这是Mask-RCNN的一个变体,以每秒多帧的速度在每个人体区域内密集地回归特定部位的UV坐标。

efbb1eff066f34a1e1f187579011c98e9f6603e0

DensePose-COCO数据集

我们利用人工标注建立从二维图像到人体表面表示的密集对应。如果用常规方法,需要通过旋转来操纵表明,导致效率低下。相反,我们构建了一个包含两个阶段的标注流程,从而高效地收集到图像-表面的对应关系的标注。

如下所示,在第一阶段,我们要求标注者划定与可见的、语义上定义的身体部位相对应的区域。我们指导标注者估计被衣服遮挡住的身体部分,因此,比如说穿着一条大裙子也不会使随后的对应标注复杂化。

在第二阶段,我们用一组大致等距的点对每个部位的区域进行采样,并要求注释者将这些点与表面相对应。为了简化这个任务,我们通过提供六个相同身体部分的预渲染视图来展开身体部位的表面,并允许用户在其中任何一个视图上放置标志。这允许注释者通过从在六个选项中选择一个,而不用手动旋转表面来选择最方便的视点。

我们在数据收集过程中使用了SMPL模型SURREAL textures

91af4820d09b113c584b585b3dcda8449a53264c

两个阶段的标注过程使我们能够非常有效地收集高度准确的对应数据。部位分割(part segmentation)和对应标注( correspondence annotation)这两个任务基本是是同时进行的,考虑到后一任务更具挑战性,这很令人惊讶。我们收集了50000人的注释,收集了超过500万个人工标注的对应信息。以下是在我们的验证集中图像注释的可视化:图像(左),U(中)和V(右)是收集的注释点的值。

0b885d22caa3d914b801ffe5f7994447be8c92c9

DensePose-RCNN系统

与DenseReg类似,我们通过划分表面来查找密集对应。对于每个像素,需要确定:

  • 它倾向于属于哪个表面部位;
  • 它对应的部位的2D参数化的位置。

下图右边说明了对表面的划分和“与一个部位上的点的对应”。

3148e2af057cd04a319637e6bf24a53fa5d35331

我们采用具有特征金字塔网络( FPN)的Mask-RCNN结构,以及ROI-Align池化以获得每个选定区域内的密集部位标签和坐标。

如下图所示,我们在ROI-pooling的基础上引入一个全卷积网络,目的是以下两个任务:

  • 生成每像素的分类结果以选择表面部位
  • 对每个部位回归局部坐标

在推理过程,我们的系统使用GTX1080 GPU在320x240的图像上以25fps的速度运行,在800x1100的图像上以4-5fps的速度运行。

5c6efac31f850d71f72e40d247332408a32f5a87

DensePose-RCNN系统可以直接使用注释点作为监督。但是,我们通过在原本未标注的位置上“修补”监督信号的值进行取得了更好的结果。为了达到这个目的,我们采用一种基于学习的方法,首先训练一个“教师”网络:一个完全卷积神经网络(如下图),它重新构造了给定图像的ground-truth值和 segmentation mask。

121edc8a2c8c3b77acb3fe7e2840e993fe924154

我们使用级联策略(cascading strategies)进一步提高了系统的性能。通过级联,我们利用来自相关任务的信息,例如已经被Mask-RCNN架构成功解决的关键点估计和实例分割。这使我们能够利用任务协同和不同监督来源的互补优势。

作者:

5c76836b138c787f311f4e094a5f464e260feecc

  • Rıza Alp Güler,INRIA, CentraleSupélec
  • Natalia Neverova,Facebook AI Research
  • Iasonas Kokkinos,Facebook AI Research



原文发布时间为:2018-02-4

本文作者:densepose.org

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:效果惊艳!FAIR提出人体姿势估计新模型,升级版Mask-RCNN

相关文章
|
3月前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
381 2
|
4月前
|
机器学习/深度学习 数据采集 运维
基于WOA-CNN-BiLSTM-Attention、CNN-BiLSTM-Attention、WOA-CNN-BiLSTM、CNN-BiLSTM、BiLSTM、CNN6模型单变量时序预测一键对比研究
基于WOA-CNN-BiLSTM-Attention、CNN-BiLSTM-Attention、WOA-CNN-BiLSTM、CNN-BiLSTM、BiLSTM、CNN6模型单变量时序预测一键对比研究
232 7
|
3月前
|
机器学习/深度学习 计算机视觉
基于CNN和大气散射模型的图像去雾
基于CNN和大气散射模型的图像去雾
|
4月前
|
机器学习/深度学习 算法 物联网
基于WOA-CNN-LSTM-Attention、CNN-LSTM-Attention、WOA-CNN-LSTM、CNN-LSTM、LSTM、CNN6模型多变量时序预测一键对比研究(Matlab代码)
基于WOA-CNN-LSTM-Attention、CNN-LSTM-Attention、WOA-CNN-LSTM、CNN-LSTM、LSTM、CNN6模型多变量时序预测一键对比研究(Matlab代码)
174 0
|
机器学习/深度学习 人工智能 编解码
【AI系统】轻量级CNN模型新进展
本文继续探讨CNN模型的小型化,涵盖ESPNet、FBNet、EfficientNet和GhostNet系列。ESPNet系列通过高效空间金字塔卷积减少运算量;FBNet系列采用基于NAS的轻量化网络设计;EfficientNet系列通过复合缩放方法平衡网络深度、宽度和分辨率;GhostNet系列则通过Ghost模块生成更多特征图,减少计算成本。各系列均旨在提升模型效率和性能,适用于移动和边缘设备。
899 6
|
机器学习/深度学习 存储 人工智能
【AI系统】轻量级CNN模型综述
本文介绍了几种常见的小型化CNN模型,包括SqueezeNet、ShuffleNet、MobileNet等系列。这些模型通过减少参数量和计算量,实现在有限资源下高效运行,适用于存储和算力受限的场景。文章详细解释了各模型的核心技术和优化策略,如Fire Module、Channel Shuffle、Depthwise Separable Convolutions等,旨在帮助读者理解和应用这些高效的小型化CNN模型。
765 3
|
机器学习/深度学习
CNN模型验证和CNN模型保存
【8月更文挑战第10天】CNN模型验证和CNN模型保存。
201 27
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
331 3
|
机器学习/深度学习
加载CNN保存模型
【8月更文挑战第10天】加载CNN保存模型。
134 12
|
机器学习/深度学习 编解码 算法
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5

热门文章

最新文章