Find3D:加州理工学院推出的3D部件分割模型

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: Find3D是由加州理工学院推出的3D部件分割模型,能够根据任意文本查询分割任意对象的任何部分。该模型利用强大的数据引擎自动从互联网上的3D资产生成训练数据,并通过对比训练方法训练出一个可扩展的3D模型。Find3D在多个数据集上表现出色,显著提升了平均交并比(mIoU),并能处理来自iPhone照片和AI生成图像的野外3D构建。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:识别和分割任何物体的任何部分,只需用文本查询即可。
  2. 性能:在多个数据集上表现出色,平均交并比(mIoU)提高3倍。
  3. 应用:适用于机器人视觉、虚拟现实、计算机辅助设计等多个领域。

正文(附运行示例)

Find3D 是什么

公众号: 蚝油菜花 - Find3D

Find3D是由加州理工学院推出的3D部件分割模型,旨在根据任意文本查询分割任意对象的任何部分。该模型通过一个强大的数据引擎自动从互联网上的3D资产生成训练数据,并采用对比训练方法训练出一个可扩展的3D模型。

Find3D在包括Objaverse-General、ShapeNet-Part和PartNet-E在内的多个数据集上展现了出色的性能,实现了高达3倍于次佳方法的平均交并比(mIoU)提升。此外,Find3D还能处理来自iPhone照片和AI生成图像的野外3D构建。

Find3D 的主要功能

  • 开放世界3D部分分割:识别和分割任何物体的任何部分,只需用文本查询即可,不受预定义部分集的限制。
  • 无需人工注释:利用数据引擎自动从互联网上的3D资产生成训练数据,无需人工注释。
  • 高性能与泛化能力:在多个数据集上表现出色,与次佳方法相比,平均交并比(mIoU)提高3倍。
  • 快速推理:比现有基线快6到300倍,显著提高推理速度。
  • 鲁棒性:在不同的物体姿态和查询条件下保持稳定的分割效果。
  • 查询灵活性:支持不同类型的文本查询,包括不同粒度和描述风格的部分查询。

Find3D 的技术原理

  • 数据引擎

    • 使用2D基础模型(如SAM和Gemini)自动注释3D对象。
    • 将3D资产渲染成多个视图,每个视图传递给SAM进行分割。
    • 对于SAM返回的每个掩码,查询Gemini以获取相应的部分名称,形成(掩码,文本)对。
    • 将部分名称嵌入到视觉和语言基础模型(如SigLIP)的潜在嵌入空间中。
    • 基于投影几何将掩码反投影到3D点云中,形成(点,文本嵌入)对。
  • 模型训练

    • 基于Transformer的点云模型,该模型将点云视为序列,并执行块注意力。
    • 模型返回的点特征与文本嵌入的余弦相似度进行任何自由形式文本的查询。
    • 用对比学习目标处理标签的多义性和部分可见性问题,支持在数据引擎生成的数据上进行可扩展训练。
  • 对比学习目标

    • 解决每个点具有多个标签的问题,及由于每个掩码只覆盖部分视图而导致的未标记点问题。
    • 基于对比学习目标,让模型能学习到鲁棒的特征表示,在开放世界中实现准确的部分分割。

如何运行 Find3D

环境设置

cd model
conda create -n find3d python=3.8
pip install -r requirements.txt

构建 Pointcept

git clone https://github.com/Pointcept/Pointcept.git
cd /Pointcept/libs/pointops
python setup.py install
cd ../../..

构建 FlashAttention

git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention MAX_JOBS=4 python setup.py install
cd ..

运行推理

在基准数据集上运行推理

python evaluation/benchmark/eval_benchmark.py --benchmark Objaverse --data_root [data root] --objaverse_split unseen --checkpoint_path [your downloaded checkpoint path]

在野外点云数据上运行推理

python evaluation/demo/eval_visualize.py --object_path evaluation/demo/mickey.py --checkpoint_path [your downloaded checkpoint path] --mode segmentation --queries "head" "ear" "arm" "leg" "body" "hand" "shoe"

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 传感器 数据可视化
【免费】以 3D 形式显示热图、高程或天线响应模式表面数据附matlab代码
【免费】以 3D 形式显示热图、高程或天线响应模式表面数据附matlab代码
|
1天前
|
机器学习/深度学习 人工智能 编解码
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
OminiControl 是一个高度通用且参数高效的 AI 图像生成框架,专为扩散变换器模型设计,能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数(0.1%),支持主题驱动控制和空间对齐控制,适用于多种图像生成任务。
23 10
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
|
1月前
|
编解码 人工智能 开发者
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据。其核心创新在于能够对图像和视频进行任意分辨率编码,并通过动态压缩器模块提高处理效率。Oryx 在处理长视觉上下文(如视频)时表现出色,同时在图像、视频和3D多模态理解方面也展现了强大能力。该模型的开源性质为多模态研究社区提供了宝贵资源,但同时也面临一些挑战,如选择合适的分辨率和压缩率以及计算资源的需求。
29 3
|
7月前
|
人工智能 Windows
LabVIEW将视觉生成器AI用作OPC服务器
LabVIEW将视觉生成器AI用作OPC服务器
64 2
|
4月前
|
XML 传感器 测试技术
GIGE 协议摘录 —— 照相机的标准特征列表(五)
GIGE 协议摘录 —— 照相机的标准特征列表(五)
46 2
|
7月前
|
前端开发
FOXBORO紧凑型 FCM2F2 现场总线通信模块
FCM是光纤通信模块,用于将200系列现场总线模块远程安装至工厂流程附近,提供2-10公里的基板间最大连接距离。FCM有FCM2F2, FCM2F4和FCM2F10三种型号,具备抗电气干扰能力,适用于高压环境或雷电区域。设计上,FCM采用挤压铝外壳,符合ISA S71.04标准,提供不同等级的防护,可热插拔且带有状态指示LED。底板能容纳最多8个FBM或FBM与FCM的组合,冗余配置需四个FCM,非冗余则只需一个。FCM通过光纤电缆连接,最远距离达20公里,而60米内可通过双绞线连接。FCM2F10需单模光纤电缆,特殊应用可能需要特定类型的电缆。
FOXBORO紧凑型 FCM2F2 现场总线通信模块
|
7月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
131 1
|
机器学习/深度学习 编解码 算法
|
前端开发 芯片
【芯片前端】保持代码手感——不重叠序列检测
【芯片前端】保持代码手感——不重叠序列检测
|
自然语言处理
【论文速递】ACL 2021-CasEE: 一种用于重叠事件抽取的级联解码联合学习框架
【论文原文】:A Joint Learning Framework with Cascade Decoding for Overlapping Event Extraction
115 0

热门文章

最新文章