Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

2025-01-09 192

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： Mobile-Agent 是一款基于多模态大语言模型的智能代理，能够通过视觉感知自主完成复杂的移动设备操作任务，支持跨应用操作和纯视觉解决方案。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：Mobile-Agent 能够通过视觉感知自主完成复杂的移动设备操作任务。
技术：结合多模态大语言模型和视觉感知技术，支持跨应用操作和纯视觉解决方案。
应用：适用于多种移动操作系统环境，能够自动规划、执行和反思操作步骤。

正文（附运行示例）

Mobile-Agent 是什么

Mobile-Agent

Mobile-Agent 是一款具有移动性的智能代理软件实体，能够在网络的各个节点之间移动，代表用户或其他代理进行工作。它能够根据具体情况中断当前执行，移动至另一设备上恢复运行，并及时返回结果。这种移动的目的是使程序的执行尽可能靠近数据源，降低网络通信开销，节省带宽，平衡负载，加快任务的执行，提高分布式系统的处理效率。

Mobile-Agent 的应用发展迅速，特别是在移动设备操作领域。例如，阿里巴巴与北京交通大学共同提出的 Mobile-Agent-v2 是通过多代理协作实现有效导航的移动设备操作助手。基于多模态大语言模型（MLLM），Mobile-Agent 能够自主完成复杂的移动设备操作任务。它包含规划Agent、决策Agent和反思Agent三个专业角色，能够根据历史操作生成任务，在操作过程中进行自我反思和调整。Mobile-Agent 还支持纯视觉解决方案，不需要依赖系统的UI文件，通过分析图像来理解和操作手机，使其能够在不同的移动操作系统环境中灵活应用。

Mobile-Agent 的主要功能

操作定位：Mobile-Agent 能准确识别并点击屏幕上的特定图标和文本。通过检测模型和视觉感知工具来确定操作位置，例如使用 OCR 工具定位文本或通过图标检测工具识别图标。
自我规划：可以根据用户的指令和当前屏幕的状态，自动规划并执行一系列操作步骤，直到完成任务。Mobile-Agent 通过迭代方式获取屏幕截图，结合操作历史和系统提示来决定下一步操作。
自我反思：在操作过程中，如果出现错误或无效操作，Mobile-Agent 能够及时发现并采取补救措施。例如，当操作后屏幕没有变化或显示错误页面时，会尝试其他操作或调整参数。
多应用操作：Mobile-Agent 支持跨多个应用程序的自动化操作，例如在不同应用之间切换和协同完成任务。
纯视觉解决方案：不依赖于系统的 XML 文件或其他元数据，通过分析图像来理解和操作手机，使得其操作范围不受限制。

Mobile-Agent 的技术原理

多模态大语言模型：Mobile-Agent 结合了大规模语言模型（如 GPT-4V），用于理解和执行用户的自然语言指令。模型能通过读取屏幕截图和用户指令来生成相应的操作步骤。
视觉感知技术：系统使用光学字符识别（OCR）工具来定位屏幕上的文本，通过图标检测工具和 CLIP 模型来识别图标的准确位置。使 Mobile-Agent 能准确地识别和定位屏幕上的元素，执行精确的操作。
屏幕截图分析：Mobile-Agent 通过分析当前屏幕截图来获取操作所需的视觉信息。将屏幕截图作为输入，结合操作历史和用户指令，来决定下一步的操作。
多智能体协作机制：Mobile-Agent 采用多智能体架构，包含多个专门的智能体，如视觉感知智能体、决策智能体、执行智能体和反思智能体。这些智能体各司其职，通过协作来完成复杂的移动设备操作任务。
自主任务规划和执行：Mobile-Agent 能够根据用户的指令和当前屏幕的状态，自动规划并执行一系列操作步骤。它通过迭代的方式，反复截取屏幕截图，处理提示和操作历史，生成下一步操作。
自我反思：在操作过程中，如果出现错误或无效操作，Mobile-Agent 能够及时发现并采取补救措施。例如，当操作后屏幕没有变化或显示错误页面时，它会尝试其他操作或调整参数。
提示格式：Mobile-Agent 采用 ReAct 中的提示格式，要求代理输出三个部分：观察（Observation）、思考（Thought）和行动（Action）。有助于代理更好地理解和执行任务。