OmAgent：轻松构建在终端设备上运行的 AI 应用，赋能手机、穿戴设备、摄像头等多种设备

2025-01-19 83

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架，支持多设备连接、高效模型集成，助力开发者快速构建复杂的多模态代理应用。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文（附运行示例）

OmAgent

OmAgent 是 Om AI 与浙江大学滨江研究院联合开源的多模态语言代理框架，旨在简化设备端智能代理的开发。它支持文本、图像、视频和音频等多种输入形式，赋能智能手机、智能可穿戴设备、IP 摄像头等多种硬件设备。

OmAgent 通过抽象不同设备类型，简化了连接到先进多模态模型和算法的过程。它优化了计算流程，提供实时交互体验，具备易连接多样设备、集成前沿多模态模型、支持复杂问题解决算法等关键特点，提供直观的接口构建可扩展的代理，适应各种应用需求。

多设备连接：OmAgent 让连接物理设备变得非常简单，比如手机、眼镜等，能构建直接在设备上运行的应用，提供智能手机应用和对应的后端，用户无需担心复杂的设备连接问题，可以专注于代理功能的开发。
高效模型集成：集成 SOTA 模型，整合最先进的商业和开源基础模型，为应用开发者提供了最强大的智能支持。
算法实现接口：为研究人员和开发者提供易于使用的流程编排接口，方便他们实现最新的代理算法，如 ReAct、DnC 等。让 OmAgent 能够支持更复杂的任务和问题解决，拓展代理的功能边界。

首先，确保你的 Python 版本 >= 3.10，然后使用 pip 安装 OmAgent 核心库：

pip install omagent-core

或者从源代码安装最新版本：

pip install -e omagent-core

使用 Docker-Compose 启动 Conductor 服务器、Elasticsearch 和 Redis：

cd docker
docker-compose up -d

在 configs/llms/gpt.yml 中配置你的 OpenAI API 密钥或兼容的端点：

export custom_openai_key="your_openai_api_key"
export custom_openai_endpoint="your_openai_endpoint"

运行简单的 VQA 示例，启动网页 GUI：

cd examples/step1_simpleVQA
python run_webpage.py

打开浏览器访问 http://127.0.0.1:7860，你将看到如下界面：
simpleVQA_webpage

🥦 微信公众号｜搜一搜：蚝油菜花 🥦