OpAgent开源：登顶 WebArena，蚂蚁集团开源全模态网页智能体-阿里云开发者社区

OpAgent开源：登顶 WebArena，蚂蚁集团开源全模态网页智能体

2026-04-07 35

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 蚂蚁集团推出Web智能体OpAgent，仅凭自然语言指令即可在真实网站（如亚马逊）自主完成搜索、识别、加购等复杂操作。其采用视觉驱动理解、在线强化学习与模块化协作架构，在WebArena基准达71.6%任务成功率，刷新SOTA。已开源OpAgent-32B-INT4量化模型，显著降低推理门槛。

近日，蚂蚁集团全模态代码算法团队研发的 Web 智能体—— OpAgent 正式亮相。无需预设脚本或人工干预，OpAgent 能够仅凭一条自然语言指令，在真实亚马逊网站上自主完成搜索、识别、加购等一系列复杂交互操作。

📎0b2e2qcmyaaeimamaqwkdzuvjvgdztkajtaa.f10002.mp4

目前，OpAgent 已登陆魔搭社区（ModelScope）创空间，并同步开源了 OpAgent-32B-INT4 量化模型，显著降低了推理门槛。

魔搭 OpAgent 在线体验空间：https://modelscope.cn/studios/codefuse-ai/OpAgent-32B-Q4-Demo

HuggingFace Demo：https://huggingface.co/spaces/exias/OpAgent

开源地址：

ModelScope：https://modelscope.cn/models/codefuse-ai/OpAgent-32B
HuggingFace：https://huggingface.co/codefuse-ai/OpAgent-32B
GitHub：https://github.com/codefuse-ai/OpAgent
Technical Report: https://arxiv.org/pdf/2602.13559

核心特性

OpAgent 在权威 Web 智能体评测基准 WebArena 上以 71.6% 的任务成功率位列榜首。其核心竞争力源于一套系统性的技术路线：

视觉驱动的理解能力：模型不再过度依赖 HTML，而是通过网页截图直接理解 UI 元素的布局、空间关系及交互属性。
在线强化学习（Online RL）：通过在真实网页环境中的持续交互与试错，模型能够自主掌握动态环境下的稳定操作策略。
模块化协作架构：将复杂任务拆解为规划、执行、反思、总结四个维度，通过多角色协同显著提升了任务处理的鲁棒性。

技术架构：三阶演进策略

OpAgent 的成功并非依赖单一模型，而是通过以下三个核心步骤，实现了从基础交互到真实场景应用的跨越。

1. 基础能力构建（Multitask Pre-training）

团队将 Web Agent 的能力拆成三类核心原语，直接从网页截图中理解页面布局、交互元素和空间关系。

Planning：理解当前页面该做什么，以及某个操作可能带来什么页面变化；
Acting：决定当前应该执行点击、输入、滚动等哪类动作；
Grounding：精确找到动作应该落在哪个 UI 元素上。

围绕这三类能力，OpAgent 整合了 Mind2Web、Aguvis、UGround 等数据集，并设计了基于有效样本数的任务加权策略，解决不同任务数据规模不平衡的问题，避免模型被“大数据集任务”主导。

OpAgent 基础训练阶段

2. 在线强化学习（Online Interaction）

为了应对网页环境的动态性（如页面刷新、隐藏逻辑等），OpAgent 搭建了一套面向 Web Agent 的在线交互基础设施，让模型能够在真实网站和 WebArena 环境中大规模执行任务、采样轨迹并持续优化。

OpAgent 在线 RL 训练流程

3. 模块化 Agent 协同

OpAgent 最终采用了一套模块化 Agent 架构，把任务拆成四个角色来协作完成。

Planner：负责宏观任务拆解。
Grounder：负责具体动作执行。
Reflector：实时反思执行效果，若发现错误则立即纠偏。
Summarizer：收束执行过程并输出最终结果。

通过反思与验证机制，OpAgent 能够在执行过程中及时纠偏，从而显著提升复杂任务的鲁棒性。

Planner、Grounder、Reflector 和 Summarizer 协同工作

实验结果

在 WebArena 基准测试中，经过在线 RL 优化的单模型（Qwen3-VL-32B-Thinking + RL-HybridReward-Zero）取得了 38.1% 的成功率（Pass@5），显著优于 27.4% 的原始基线。

而集成模块化架构后的完整版 OpAgent 最终以 71.6% 的成绩刷新了 SOTA 纪录。

未来展望

OpAgent 的开源为多模态智能体在真实环境中的自主交互提供了新的基准。研究团队表示，尽管目前已取得显著进展，但系统对复杂 Prompt 工程仍有一定的依赖。未来的研究将聚焦于提升单体模型的内在探索与自主学习能力，进一步降低系统复杂度，推动通用网页智能体（General Web Agent）的落地应用。

点击即可跳转模型链接

https://modelscope.cn/models/codefuse-ai/OpAgent-32B