iDP3:斯坦福大学联合多所高校推出的改进型3D视觉运动策略

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征,无需精确相机校准和点云分割,显著提高了机器人在未见过的环境中的实用性和灵活性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求。
  2. 主要功能:iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力。
  3. 应用场景:iDP3可应用于家庭自动化、工业自动化、医疗辅助、搜索与救援及教育与培训等多个领域。

正文(附运行示例)

iDP3 是什么

公众号: 蚝油菜花 - Improved-3D-Diffusion-Policy

iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求,使机器人能够在真实世界中灵活执行任务。

iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力,显著提高了人形机器人在未见过的环境中的实用性和灵活性。

iDP3 的主要功能

  • 自我中心3D视觉表征:直接在相机帧中处理3D数据,消除对相机校准和点云分割的需求。
  • 视图泛化:在视图发生大的变化时仍然准确地抓取物体,不受训练时特定视角的限制。
  • 对象泛化:能处理在训练中未见过的物体,不依赖于特定对象的特征。
  • 场景泛化:在未见过的环境中执行任务,即使这些环境在复杂性和噪声水平上与训练环境有所不同。
  • 高效率:在训练和部署时表现出高效率,减少对大量数据集的依赖,快速适应新环境。

iDP3 的技术原理

  • 3D视觉输入:基于从LiDAR相机获取的3D点云数据,提供机器人周围环境的详细空间信息。
  • 自我中心视角:直接使用相机帧中的3D表示,不同于传统的3D策略。
  • 扩大视觉输入:通过增加采样点的数量捕捉整个场景,提高对场景的全面理解。
  • 改进的视觉编码器:用金字塔卷积编码器替代传统的多层感知器(MLP)视觉编码器,提高从人类示范中学习时的平滑性和准确性。
  • 更长的预测视野:为应对人类专家的抖动和传感器噪声,基于延长预测视野提高学习效果。
  • 优化和推理:在训练时使用AdamW优化器,用DDIM(Denoising Diffusion Implicit Models)进行扩散过程的优化和推理。

如何运行 iDP3

安装

首先,安装conda环境和相关包:

conda remove -n idp3 --all
conda create -n idp3 python=3.8
conda activate idp3

# 安装torch
pip3 install torch==2.1.0 torchvision --index-url https://download.pytorch.org/whl/cu121

# 安装其他依赖
pip install kaleido plotly open3d tyro termcolor h5py
cd third_party/visualizer && pip install -e . && cd ../..
pip install --no-cache-dir wandb ipdb gpustat visdom notebook mediapy torch_geometric natsort scikit-video easydict pandas moviepy imageio imageio-ffmpeg termcolor av open3d dm_control dill==0.3.5.1 hydra-core==1.2.0 einops==0.4.1 diffusers==0.11.1 zarr==2.12.0 numba==0.56.4 pygame==2.1.2 shapely==1.8.4 tensorboard==2.10.1 tensorboardx==2.5.1 absl-py==0.13.0 pyparsing==2.4.7 jupyterlab==3.0.14 scikit-image yapf==0.31.0 opencv-python==4.5.3.56 psutil av matplotlib setuptools==59.5.0

cd Improved-3D-Diffusion-Policy
pip install -e .
cd ..

# 安装timm和r3m
pip install timm==0.9.7
cd third_party/r3m && pip install -e . && cd ../..

使用

下载训练数据示例并解压,然后在scripts/train_policy.sh中指定数据集路径。例如:

dataset_path=/home/ze/projects/Improved-3D-Diffusion-Policy/training_data_example

训练策略:

bash scripts/train_policy.sh idp3 gr1_dex-3d 0913_example

部署策略:

bash scripts/deploy_policy.sh idp3 gr1_dex-3d 0913_example

可视化训练数据:

bash scripts/vis_dataset.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
69 4
|
7月前
|
机器学习/深度学习 人工智能 算法
AIGC著作权归属谁?国内“AI文生图第一案”这样判决
【1月更文挑战第14天】AIGC著作权归属谁?国内“AI文生图第一案”这样判决
174 2
AIGC著作权归属谁?国内“AI文生图第一案”这样判决
|
机器学习/深度学习 数据采集 人工智能
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(2)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
199 0
|
人工智能 iOS开发
《复仇者联盟》AI换脸平台
《复仇者联盟》AI换脸平台
《复仇者联盟》AI换脸平台
|
机器学习/深度学习 传感器 存储
OpML 2020会议回顾:我们离真正的AI产品还有多远?
作者:Yuanyuan Li 编辑:H4O 本文主要对 OpML 2020 大会上的一些议题进行了探讨,如生命周期管理等,并对大会嘉宾提出的一些从业观点以及作者个人的经验进行了整理分析。
209 0
OpML 2020会议回顾:我们离真正的AI产品还有多远?
|
机器学习/深度学习 人工智能 自然语言处理
支付宝安全实验室获Kaggle视觉挑战赛冠军,领跑「细粒度图像分类」技术
作为一家创新型科技公司,蚂蚁集团(支付宝母公司)科技战略进程不断加速。
支付宝安全实验室获Kaggle视觉挑战赛冠军,领跑「细粒度图像分类」技术
|
机器学习/深度学习 人工智能 安全
支付宝安全实验室研究成果入选AAAI-20,将进一步提升安全风控能力
先进的机器学习技术 将进一步提升安全风控能力
920 0
支付宝安全实验室研究成果入选AAAI-20,将进一步提升安全风控能力
|
人工智能 人机交互
拿下两个世界第一,阿里人机对话模型成人工智能国际通用标准
近日,第七届对话系统技术挑战赛(DSTC7)中,阿里AI获得双料冠军,成最大赢家。
3461 1
|
机器学习/深度学习 人工智能 计算机视觉

热门文章

最新文章