OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:OpenEMMA 提供端到端轨迹规划、多模态数据处理、链式思维推理等功能。
  2. 技术:基于预训练的多模态大型语言模型和链式思维推理过程,提升自动驾驶的决策能力。
  3. 应用:适用于城市道路、高速公路、停车和低速驾驶等复杂场景。

正文(附运行示例)

OpenEMMA 是什么

公众号: 蚝油菜花 - OpenEMMA

OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs)处理视觉数据和复杂驾驶场景的推理。框架基于链式思维推理过程,显著提高模型在轨迹规划和感知任务中的性能,同时集成专门优化的 YOLO 模型提高 3D 边界框预测的准确性。

OpenEMMA 提供了一个平台,促进更广泛的研究和开发,推动自动驾驶技术的进步。它能够处理前向摄像头图像和文本历史 ego 车辆状态作为输入,将驾驶任务框架化为视觉问答(VQA)问题,并生成人类可读的输出。

OpenEMMA 的主要功能

  1. 端到端轨迹规划:直接从传感器输入学习驾驶动作,实现从感知到决策的端到端优化,无需符号化接口。
  2. 多模态数据处理:框架处理前向摄像头图像和文本历史 ego 车辆状态作为输入,将驾驶任务框架化为视觉问答(VQA)问题。
  3. 链式思维推理:采用链式思维推理过程,指导模型生成关键对象的详细描述、行为洞察和元驾驶决策。
  4. 3D 对象检测:集成微调的 YOLO 模型,OpenEMMA 能精确检测 3D 道路上的对象,提高对象检测的准确性。
  5. 人类可读输出:基于 MLLM 的预存世界知识,OpenEMMA 能为场景理解等感知任务产生可解释的、人类可读的输出。

OpenEMMA 的技术原理

  1. 预训练的 MLLMs:基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景。
  2. 链式思维推理过程:基于链式思维推理,模型能生成速度向量和曲率向量,向量用在计算车辆的未来轨迹。
  3. 速度和曲率向量:给定速度和曲率向量,模型首先整合每个时间步的航向角,然后计算速度的 x 和 y 分量,最终用积分速度分量计算最终轨迹。
  4. 对象检测增强:为克服 MLLMs 在空间推理上的局限,集成一个专门优化用在 3D 边界框预测的 YOLO 模型。
  5. 端到端规划与推理:OpenEMMA 遵循基于指令的方法,提示 MLLMs 产生人类可解释的知识,将轨迹生成任务分解为人类可解释的组成部分,反映驾驶过程。

如何运行 OpenEMMA

1. 环境设置

首先,创建一个 Conda 环境并激活它:

conda create -n openemma python=3.8
conda activate openemma

2. 克隆仓库

克隆 OpenEMMA 的 GitHub 仓库并进入项目目录:

git clone git@github.com:taco-group/OpenEMMA.git
cd OpenEMMA

3. 安装依赖

安装所需的依赖包:

pip install -r requirements.txt

4. 设置 GPT-4 API 访问

获取 OpenAI 的 API 密钥,并设置为环境变量:

export OPENAI_API_KEY="your_openai_api_key"

5. 运行 OpenEMMA

使用以下命令运行 OpenEMMA:

python main.py \
    --model-path qwen \
    --dataroot [dir-of-nuscnse-dataset] \
    --version [vesion-of-nuscnse-dataset] \
    --method openemma

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
8月前
|
机器学习/深度学习 数据采集 算法
构建高效图像分类模型:深度学习在处理大规模视觉数据中的应用
随着数字化时代的到来,海量的图像数据被不断产生。深度学习技术因其在处理高维度、非线性和大规模数据集上的卓越性能,已成为图像分类任务的核心方法。本文将详细探讨如何构建一个高效的深度学习模型用于图像分类,包括数据预处理、选择合适的网络架构、训练技巧以及模型优化策略。我们将重点分析卷积神经网络(CNN)在图像识别中的运用,并提出一种改进的训练流程,旨在提升模型的泛化能力和计算效率。通过实验验证,我们的模型能够在保持较低计算成本的同时,达到较高的准确率,为大规模图像数据的自动分类和识别提供了一种有效的解决方案。
|
8月前
|
自动驾驶 计算机视觉
GeoMIM:适配视觉为中心的自动驾驶感知的预训练
GeoMIM:适配视觉为中心的自动驾驶感知的预训练
64 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12447 116
|
5天前
|
机器学习/深度学习 人工智能 算法
HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力
HuatuoGPT-o1 是香港中文大学与深圳大数据研究院联合推出的医学高级推理大模型,通过复杂推理和强化学习提升医学问题解决能力。
36 8
HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力
|
5月前
|
数据采集 机器学习/深度学习 PyTorch
PyTorch 与计算机视觉:实现端到端的图像识别系统
【8月更文第29天】计算机视觉是人工智能领域的重要分支之一,其应用广泛,从自动驾驶汽车到医学影像分析等。本文将介绍如何使用 PyTorch 构建和训练一个端到端的图像分类器,并涵盖数据预处理、模型训练、评估以及模型部署等多个方面。
107 1
|
1月前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
64 8
【AI系统】Transformer 模型小型化
|
2月前
|
人工智能
突破视频多模态大模型瓶颈!合成数据立大功,项目已开源
针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。
52 7
|
3月前
|
数据采集 机器学习/深度学习 TensorFlow
声纹识别实战:从数据采集到模型训练
【10月更文挑战第16天】声纹识别技术通过分析个人的语音特征来验证其身份,具有无接触、便捷的特点。本文将带你从零开始,一步步完成声纹识别系统的构建,包括数据采集、音频预处理、特征提取、模型训练及评估等关键步骤。我们将使用Python语言和相关的科学计算库来进行实践。
490 0
|
4月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
98 10

热门文章

最新文章