MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA!

简介: MAI-UI是通义实验室推出的全尺寸GUI智能体基座模型,原生集成用户交互、MCP工具调用与端云协同能力。支持跨App操作、模糊语义理解与主动提问澄清,通过大规模在线强化学习实现复杂任务自动化,在出行、办公等高频场景中表现卓越,已登顶ScreenSpot-Pro、MobileWorld等多项SOTA评测。

|“帮我查最早从杭州西站到上海虹桥的二等座车次,在钉钉前沿技术研讨群同步到达时间,再把我和水番的会议改到明天同一时间,并在群里@他说明因出差调整,问明天是否有空。”
当用户发出这样一条指令,MAI-UI 能够:

1、打开 12306 APP 查看余票

2、找到对应钉群,在群内同步到达时间;

3、修改会议时间;

4、主动在群内@同事水番,询问其时间是否有空。

这条看似简单的指令,实则对 GUI 智能体提出了四大真实挑战:跨应用操作、模糊语义理解、主动用户交互、多步骤流程协调。

1分钟了解 MAI-UI
image.png

MAI-UI 是通义实验室多模态交互团队推出的全尺寸 GUI 智能体基座模型。首次将用户交互、 MCP 工具调用、端云协同三大能力通过自主进化数据管线和大规模在线强化学习技术,原生地集成于统一架构之中(目前 2B 与 8B 模型已开源)。

在 GUI 视觉定位能力上,MAI-UI 在不同操作系统展现出全方位领先能力。MAI-UI 在 5 个权威评测集上全部登顶,其中,MAI-UI-32B 在 ScreenSpot-Pro 上超越 Gemini-3-Pro 和 Seed1.8。在手机任务执行能力上,在 AndroidWorld、MobileWorld 等真实导向的基准上,MAI-UI 均创下新的 SOTA,性能超越 UI-Tars-2、Gemini-2.5-Pro、Seed1.8 等主流模型,并在办公、生活、出行、购物等高频场景中展现出实用的任务自动化能力。
image.png
MAI‑UI 原生具备用户交互能力,当指令不完整或表达模糊时主动提问,通过与用户交互先行澄清关键信息、拒绝臆断,并将澄清信息纳入任务记忆,确保执行路径始终与用户的真实意图对齐。

以盒马采购为例,当用户说:“去日历待办里检查下我老婆有什么要在盒马买的,我确认下要不要一起买。”

MAI-UI 会先读取日历,发现待办事项中写着:“买车厘子、补充洗衣液”。

但“车厘子是否要买”“洗衣液家里还有没有”?这些信息用户并未明确。MAI-UI 会主动停下来问:

“检测到待办中有‘车厘子’和‘洗衣液’,要一起加入购物车吗?”

把决策权交还给你,只有收到明确回复,才会执行加购。
image.png
这一“主动提问”的能力,是原生集成在 MAI-UI 模型架构中的核心动作。

在训练阶段,MAI-UI 的轨迹数据中显式包含 ask_user 动作。当模型判断用户指令缺少关键信息,或存在歧义时,它会优先输出“提问”动作,而不是强行操作 UI。

这些高质量的交互数据,由人工标注 + 模型自动合成共同构建,并通过迭代筛选持续优化,覆盖大量真实场景中的模糊情形。

此外,MAI-UI 将用户的澄清回复纳入任务记忆,用于后续决策,形成闭环。这种设计让 MAI-UI 在 MobileWorld 的 Agent–User Interaction 子任务中达到 51.1% 的成功率,比现有表现最好的端到端 GUI 模型高出 18.7 个百分点。

这种交互模式不仅适用于家庭购物,也广泛出现在办公、社交、出行等场景中。如下图,当用户要求“下载简历并发送给同事”时,MAI-UI 会在发送前主动询问:“应该以附件形式发送,还是复制文本内容?”image.png
image.png
在真实任务中,很多操作如果仅靠模拟点击完成,不仅繁琐,而且极易失败。比如,当你说:

“我现在在阿里巴巴云谷园区,要去招商银行取钱,再去城西银泰城。帮我规划公交地铁出行路线,选一家 4 公里以内的招商银行,两段行程总时间不要超过 2 小时,把规划记到笔记里,标题为‘下午行程’。”

传统 GUI 智能体需要:

打开地图 App → 搜索“招商银行” → 手动滚动筛选距离 → 点进每个网点查看详情 → 估算通勤时间 → 返回再规划第二段行程 → 切换到笔记 App → 手动输入标题和内容……

任意一步遇到广告弹窗、加载延迟或 UI 变化,整个任务就可能中断。而 MAI-UI 的做法是,跳过冗长 UI 操作,直接调用结构化工具。通过原生支持的 MCP(Model-Callable Protocol),MAI-UI 可以:

调用 amap_poi_search("招商银行", radius=4000) 获取附近网点;

调用 amap_direction() 分别计算“云谷→招行”和“招行→银泰城”的用时;

过滤出总耗时 ≤2 小时的方案;

将结构化结果自动写入笔记 App,标题为“下午行程”。
将数十步易错的 UI 操作,压缩为几次可靠 API 调用,大幅提升任务成功率与效率。这种“工具优先”的思路,是 MAI-UI 的通用设计原则。

在训练中,MAI-UI 的轨迹数据显式包含 mcp_call 动作。当模型识别到任务可通过结构化工具更高效完成时,会优先选择调用,而非操作GUI界面。

得益于此,MAI-UI 在 MobileWorld 的 MCP 工具调用子任务中达到 37.5% 的成功率,相比表现最好的其它 GUI agent 模型准确率提升 +32.1 点。

这种能力不仅适用于出行规划,也广泛用于房产、开发、办公等场景。

如下图,MAI-UI 同样可以调用高德地图 API 比较两套房到公司的通勤距离,并自动发送结果给朋友;调用 GitHub API 获取代码提交记录,并格式化后邮件发送。

image.png
image.png
在实际部署中,纯端侧方案受限于小尺寸模型的能力,难以应对复杂任务;而纯云端方案则面临网络依赖、隐私风险与高成本的挑战。MAI-UI 通过原生端云协同架构,让轻量模型与大模型各司其职。

具体而言,轻量 MAI-UI-2B 模型常驻手机,不仅执行日常 GUI 任务(如加购、查日历),还同时作为“轨迹监控器”,实时判断当前执行路径是否偏离用户意图。当任务在端侧卡住、且上下文不包含密码、短信、身份证等敏感信息时,系统会安全触发云端 32B 模型接力;切换过程中,本地模型自动生成一份简洁的“错误摘要”,帮助云端快速理解失败原因并精准恢复上下文,避免从头开始。而一旦涉及支付密码等隐私操作,任务将全程在本地执行,绝不上传,确保用户数据始终处于可控边界之内。

这一机制显著提升了 MAI-UI 在真实场景中的实用性,在 AndroidWorld 评测中体,端侧任务成功率提升 33%,云端模型调用减少超过 40%。如下图所示,MAI-UI 能在保障隐私的前提下,智能调度计算资源——非敏感任务可安全上云,敏感操作则坚决本地化,真正实现“能本地,就本地;需上云,也不传隐私”。image.png
image.png
真实的手机环境充满不可预测的动态干扰,如弹窗突然弹出、App 跳转、按钮偏移、操作无响应……这些因素可能导致传统 GUI 智能体中断执行。

MAI-UI 通过在动态环境中进行在线强化学习,来提升模型在真实 GUI 任务中的泛化性与稳健性。

如下图,在执行“删除 Pro Expense 中所有完全重复的支出记录”这一任务时,即使模型被意外带入错误 App、反复返回主屏幕、多次点击未产生预期效果,MAI-UI 也能:识别当前轨迹已偏离目标、自主回退或重新定位、持续验证操作结果、最终完成用户意图。image.png
这一能力源于 MAI-UI 的大规模超长轨迹强化学习训练;系统支持支持扩展到数百个环境并行训练,并结合最长 50 步的超长轨迹训练与动态扰动注入机制(弹窗、权限、UI 偏移等),让模型不再依赖静态界面记忆,而是学会在混乱中保持任务连贯。

得益于该机制,MAI-UI 在 AndroidWorld 上实现多尺寸稳定提升:2B +3.0、8B +6.0、32B +2.5(成功率)。

image.png
我们为大家提供了完整的模型家族,全尺寸覆盖,满足不同场景的需求:

2B 模型专为端侧部署优化,在轻量化的同时保证了核心功能的可用性;

8B 与 32B 模型在性能与效率之间取得了出色的平衡,适用于大多数复杂任务;

235B-A22B 模型则展现了顶尖的规划与推理能力,负责突破任务复杂度的上限。

在评测表现上,MAI-UI 登顶多项 SOTA。image.png
在 GUI 视觉定位任务上,MAI-UI 在 ScreenSpot-Pro、UI-Vision、MMBench-GUI L2、OSWorld-G 和 ScreenSpot-v2 评测集上全面创造所有尺寸SOTA(最佳)。在ScreenSpot-Pro,MAI-UI-32B 准确率达 73.5%,超过Gemini3-Pro、Seed1.8 等模型。

MAI-UI 不仅擅长手机端 GUI 定位,在电脑与网页等操作系统全面领先,比如以电脑GUI 定位为主的 UI-Vision 中,MAI-UI-32B 与 8B 均比同尺寸模型提升 10 分以上。

在 GUI 任务执行能力的评测集上 MAI-UI 同样全面领先。在 AndroidWorld 上,MAI-UI-235B-A22B 以 76.7% 的成功率刷新纪录,超越 UI-Tars-2、Gemini-2.5-Pro 等主流模型;在更贴近真实使用的 MobileWorld 基准中,MAI-UI 在“主动交互”和“MCP 工具调用”子任务上分别领先端到端模型 +18.7 与 +32.1 个百分点;在 GUI Grounding 系列基准上,MAI-UI 同样全面领先,展现出强大的界面理解能力。image.png
为真实反映 GUI 智能体在复杂场景中的能力边界,通义实验室多模态交互团队团队同步推出了 MobileWorld —— 一个面向真实手机使用场景的高难度评测基准。

相比传统的 AndroidWorld 测试基准,MobileWorld 测评任务更难、更真、更贴近你的日常手机操作场景:
✅ 平均 27.8 步长程任务(相比 AndroidWorld 翻一倍)
✅ 超 60% 任务需跨 App 协作(从购物比价到行程规划)
✅ 首创两大硬核挑战:

智能体-用户交互式任务:用户指令模糊,需要agent主动提问澄清,拒绝幻觉。

MCP-GUI 混合任务:混合外部工具调用(如GitHub、Arxiv等)+ GUI操作,让手机迈向生产级能力。

当前 SOTA 模型成功率仅 51.7%,端到端模型最高仅 20.9%,新挑战任务上主流 Agent 准确率近乎归零!

更关键的是:全栈开源、Docker 一键复现、自托管App生态,让评测真正公平、稳定、可复现。

相关链接 :

🔗GitHub(MAI-UI):https://github.com/Tongyi-MAI/MAI-UI

🔗Arxiv(MAI-UI):http://arxiv.org/abs/2512.22047

🔗GitHub(MobileWorld):https://github.com/Tongyi-MAI/MobileWorld

🔗Arxiv(MobileWorld):https://arxiv.org/abs/2512.19432

相关文章
|
8天前
|
编解码 人工智能 语音技术
📢 我们发布了新一代端到端语音交互模型 Fun-Audio-Chat!
通义百聆开源Fun-Audio-Chat(8B),支持端到端语音交互,具备情感感知与任务执行能力。在多榜单同尺寸模型中排名第一,支持高精度语音理解、情感识别与Function Call,高效低延迟,已全面开放代码与权重,欢迎体验!
527 10
|
14天前
|
机器学习/深度学习 缓存 物联网
打造社交APP人物动漫化:通义万相wan2.x训练优化指南
本项目基于通义万相AIGC模型,为社交APP打造“真人变身跳舞动漫仙女”特效视频生成功能。通过LoRA微调与全量训练结合,并引入Sage Attention、TeaCache、xDIT并行等优化技术,实现高质量、高效率的动漫风格视频生成,兼顾视觉效果与落地成本,最终优选性价比最高的wan2.1 lora模型用于生产部署。(239字)
402 46
|
自然语言处理 语音技术 开发者
开源上新|FunASR多语言离线文件转写软件包
开源上新|FunASR多语言离线文件转写软件包
|
9天前
|
人工智能 Java Serverless
AgentScope Java 答疑时间:开发者近期最关心的12个问题
近日,AgentScope Java V1.0 版本正式发布,全面对齐 Python 版核心能力,为 Java 开发者带来了构建企业级 Agentic 应用强大的开源方案。在最近与 DataWhale 合作的 AgentScope Java 解读线上直播间中,我们收到了大家的热情提问。为了方便大家集中查阅,我们整理了其中最高频的 Q&A,由 AgentScope Java 的核心开发者为大家一次性说清讲透!
|
4月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
1235 2
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
构建AI智能体:六十七、超参数如何影响大模型?通俗讲解原理、作用与实战示例
超参数是机器学习模型训练前需要人工设定的参数,它们控制着模型的学习过程而非直接通过学习获得。文章通过生动的类比(如自行车调整、烹饪配方)解释了超参数的概念,并详细介绍了其调优流程、常见类型(学习率、批量大小等)及对模型的影响。通过实际代码示例,展示了不同超参数设置如何影响模型训练效果,强调合理调优对提升模型性能、防止过拟合和优化资源使用的重要性。文章指出,超参数调优是模型成功的关键,初学者可从默认值开始逐步实验,借助网格搜索等工具实现高效调参。
274 105

热门文章

最新文章