近日,蚂蚁集团全模态代码算法团队研发的 Web 智能体—— OpAgent 正式亮相。无需预设脚本或人工干预,OpAgent 能够仅凭一条自然语言指令,在真实亚马逊网站上自主完成搜索、识别、加购等一系列复杂交互操作。
📎0b2e2qcmyaaeimamaqwkdzuvjvgdztkajtaa.f10002.mp4
目前,OpAgent 已登陆魔搭社区(ModelScope)创空间,并同步开源了 OpAgent-32B-INT4 量化模型,显著降低了推理门槛。
魔搭 OpAgent 在线体验空间:https://modelscope.cn/studios/codefuse-ai/OpAgent-32B-Q4-Demo
HuggingFace Demo:https://huggingface.co/spaces/exias/OpAgent
开源地址:
ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B
HuggingFace:https://huggingface.co/codefuse-ai/OpAgent-32B
GitHub:https://github.com/codefuse-ai/OpAgent
Technical Report: https://arxiv.org/pdf/2602.13559
核心特性
OpAgent 在权威 Web 智能体评测基准 WebArena 上以 71.6% 的任务成功率位列榜首。其核心竞争力源于一套系统性的技术路线:
- 视觉驱动的理解能力:模型不再过度依赖 HTML,而是通过网页截图直接理解 UI 元素的布局、空间关系及交互属性。
- 在线强化学习(Online RL):通过在真实网页环境中的持续交互与试错,模型能够自主掌握动态环境下的稳定操作策略。
- 模块化协作架构:将复杂任务拆解为规划、执行、反思、总结四个维度,通过多角色协同显著提升了任务处理的鲁棒性。
技术架构:三阶演进策略
OpAgent 的成功并非依赖单一模型,而是通过以下三个核心步骤,实现了从基础交互到真实场景应用的跨越。
1. 基础能力构建(Multitask Pre-training)
团队将 Web Agent 的能力拆成三类核心原语,直接从网页截图中理解页面布局、交互元素和空间关系。
- Planning:理解当前页面该做什么,以及某个操作可能带来什么页面变化;
- Acting:决定当前应该执行点击、输入、滚动等哪类动作;
- Grounding:精确找到动作应该落在哪个 UI 元素上。
围绕这三类能力,OpAgent 整合了 Mind2Web、Aguvis、UGround 等数据集,并设计了基于有效样本数的任务加权策略,解决不同任务数据规模不平衡的问题,避免模型被“大数据集任务”主导。
OpAgent 基础训练阶段
2. 在线强化学习(Online Interaction)
为了应对网页环境的动态性(如页面刷新、隐藏逻辑等),OpAgent 搭建了一套面向 Web Agent 的在线交互基础设施,让模型能够在真实网站和 WebArena 环境中大规模执行任务、采样轨迹并持续优化。
OpAgent 在线 RL 训练流程
3. 模块化 Agent 协同
OpAgent 最终采用了一套模块化 Agent 架构,把任务拆成四个角色来协作完成。
- Planner:负责宏观任务拆解。
- Grounder:负责具体动作执行。
- Reflector:实时反思执行效果,若发现错误则立即纠偏。
- Summarizer:收束执行过程并输出最终结果。
通过反思与验证机制,OpAgent 能够在执行过程中及时纠偏,从而显著提升复杂任务的鲁棒性。
Planner、Grounder、Reflector 和 Summarizer 协同工作
实验结果
在 WebArena 基准测试中,经过在线 RL 优化的单模型(Qwen3-VL-32B-Thinking + RL-HybridReward-Zero)取得了 38.1% 的成功率(Pass@5),显著优于 27.4% 的原始基线。
而集成模块化架构后的完整版 OpAgent 最终以 71.6% 的成绩刷新了 SOTA 纪录。
未来展望
OpAgent 的开源为多模态智能体在真实环境中的自主交互提供了新的基准。研究团队表示,尽管目前已取得显著进展,但系统对复杂 Prompt 工程仍有一定的依赖。未来的研究将聚焦于提升单体模型的内在探索与自主学习能力,进一步降低系统复杂度,推动通用网页智能体(General Web Agent)的落地应用。
点击即可跳转模型链接