谷歌发布Objectron数据集,推进三维物体几何理解的极限

简介: 谷歌人工智能实验室近日发布 Objectron 数据集,这是一个以3D目标为中心的视频剪辑的集合,这些视频剪辑从不同角度捕获了较大的一组公共对象。数据集包括 15K 带注释的视频剪辑,并补充了从地理多样的样本中收集的超过 4M 带注释的图像(覆盖五大洲的 10 个国家)。

微信图片_20220109180325.png


机器学习(ML)的最新技术已经在许多计算机视觉任务上取得了SOTA的结果,但仅仅是通过在2D照片上训练模型而已。


在这些成功的基础上,提高模型对 3D 物体的理解力有很大的潜力来支持更广泛的应用场景,如增强现实、机器人、自动化和图像检索。


今年早些时候,谷歌发布了 MediaPipe Objectron,一套为移动设备设计的实时 3D 目标检测模型,这个模型是基于一个已标注的、真实世界的 3D 数据集,可以预测物体的 3D 边界。



然而,理解3D 中的对象仍然是一项具有挑战性的任务,因为与2D 任务(例如,ImageNet、 COCO 和 Open Images)相比,缺乏大型的真实世界数据集。


为了使研究团体能够继续推进3D 对象理解,迫切需要发布以对象为中心的视频数据集,这些数据集能够捕获更多的对象的3D 结构,同时匹配用于许多视觉任务(例如,视频或摄像机流)的数据格式,以帮助机器学习模型的训练和基准测试。


近期谷歌发布了 Objectron 数据集,这是一个以对象为中心的短视频剪辑数据集,从不同的角度捕捉了一组更大的普通对象。


微信图片_20220109180329.png


每个视频剪辑都伴随着 AR 会话元数据,其中包括摄像机姿态和稀疏点云。数据还包含为每个对象手动注释的3D 边界,这些 bounding box 描述了对象的位置、方向和尺寸。


每个视频剪辑都随附有 AR 的元数据,其中包括相机姿势和稀疏点云。数据还包含每个对象的手动注释的 3D 边界框,用于描述对象的位置,方向和尺寸。

该数据集包括15K 注释视频剪辑与超过4M 注释图像收集的地理多样性样本(涵盖10个国家横跨五大洲)。  

 微信图片_20220109180331.png


3D 目标检测解决方案


除了这个数据集,谷歌还分享了一个 3D 目标检测解决方案,可以用于4类物体:鞋子、椅子、杯子和相机。


这些模型是在 MediaPipe 中发布的,MediaPipe 是谷歌的开源框架,用于跨平台可定制的流媒体机器学习解决方案,它同时也支持机器学习解决方案,比如设备上的实时手势、虹膜和身体姿态跟踪。

      微信图片_20220109180333.png


与之前发布的 single-stage Objectron 模型相比,这些最新版本采用了两级架构。

第一级使用 TensorFlow 目标检测模型来寻找物体的 2D 裁剪,第二级使用图像裁剪来估计三维bounding box,同时计算下一帧对象的二维裁剪,使得目标检测器不需要运行每一帧。


第二阶段的三维 bounding box 预测器是以83 FPS在 Adreno 650  GPU 上运行。

 微信图片_20220109180335.png


3D 目标检测的评估指标


有了真实的注释,我们就可以使用 3D IoU(intersection over union)相似性统计来评估 3D 目标检测模型的性能,这是计算机视觉任务常用的指标,衡量bounding box与ground truth的接近程度。


谷歌提出了一种计算一般的面向三维空间的精确 3D IoU 的算法。


首先使用 Sutherland-Hodgman Polygon clipping 算法计算两个盒子面之间的交点,这类似于计算机图形学的剔除技术(frustum culling),利用所有截断多边形的凸包计算相交的体积。最后,通过交集的体积和两个盒子的并集的体积计算 IoU。


谷歌表示将随数据集一起发布评估的源代码。  


微信图片_20220109180336.png


数据格式


Objectron 数据集的技术细节,包括使用和教程,均可在数据集网站上获得。这些数据集中的物体包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子等,数据集一起发布的具有以下内容:


1.视频序列


2.带注释的标签(目标的3D 边界框)


3.AR 元数据 (如照相机姿态、点云和平面表面)


4.处理过的数据集: 混合版本的带注释的帧、tf.example 格式的图像和

SequenceExample 格式的视频


5.支持基于上面描述的度量评估的脚本


6.支持脚本将数据加载到 Tensorflow、Pytorch、Jax并且可视化数据集


除了数据集,谷歌还开放了数据管道来解析 Tensorflow、 PyTorch 和 Jax 框架中的数据集。还提供了 colab notebook 的实例 。


通过发布这个 Objectron 数据集,谷歌希望能够使研究团体推进三维物体几何理解的极限。同时也希望促进新的研究和应用,如视图合成,改进的 3D 表示和非监督式学习等。


参考链接:


https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+blogspot%2FgJZg+%28Google+AI+Blog%29

相关文章
|
机器学习/深度学习 编解码 算法
【图像融合】基于加权 IHS PCA三种像素级算法实现遥感图像融合附matlab代码
【图像融合】基于加权 IHS PCA三种像素级算法实现遥感图像融合附matlab代码
【图像融合】基于加权 IHS PCA三种像素级算法实现遥感图像融合附matlab代码
|
5月前
|
数据采集 算法 安全
CVPR 2024:给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源
【6月更文挑战第28天】CVPR 2024亮点:SAX-NeRF框架开源!融合X光与NeRF,提升3D重建效果。X3D数据集验证,Lineformer+MLG策略揭示物体内部结构,增强几何理解。虽有计算成本及泛化挑战,但为计算机视觉和医学影像开辟新路径。[论文链接](https://arxiv.org/abs/2311.10959)**
159 5
|
5月前
|
人工智能 自然语言处理
高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF
【6月更文挑战第24天】论文《Language Models as Text-Based World Simulators?》由多所名校和机构合作完成,探讨大型语言模型(LLMs)如GPT-4是否能胜任世界模拟器角色。新基准BYTE-SIZED32-State-Prediction用于评估其模拟文本游戏状态转换的能力。结果显示,GPT-4在某些任务上接近人类表现,但在算术、常识推理和环境动态模拟上仍有不足,表明LLMs尚无法成为可靠的全功能世界模拟器。研究指出了LLMs改进和未来研究的潜力方向。[[1](https://arxiv.org/pdf/2403.19655)]
48 1
|
6月前
|
机器学习/深度学习 人工智能 算法
AI重建粒子轨迹,发现新物理学
【5月更文挑战第6天】研究人员利用AI重建高能粒子碰撞实验中的粒子轨迹,发现新物理学现象。AI技术解决了传统方法的局限性,揭示了不同寻常的粒子衰变和分布模式,暗示可能存在未知物理过程或粒子相互作用。该研究显示AI在物理学研究中的潜力,但也面临数据需求、计算资源限制和模型可解释性的挑战。[论文链接](https://doi.org/10.7494/csci.2024.25.1.5690)
70 1
|
存储 传感器 编解码
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
125 0
|
6月前
|
机器学习/深度学习 人工智能 PyTorch
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
77 0
极智AI | GAN应用于玻璃表面水珠样本生成
|
6月前
|
编解码 算法 数据处理
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
|
传感器 机器学习/深度学习 编解码
单一传感器图像多光谱多分辨率研究附matlab代码
单一传感器图像多光谱多分辨率研究附matlab代码
|
编解码 人工智能 定位技术
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
159 0
|
传感器 机器学习/深度学习 人工智能
TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测
TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测
253 0