随着大模型从"回答问题"走向"执行任务",Agent评测正在成为能力评估的关键方向。一个Agent可能给出看似合理的结果,却在执行过程中遗漏关键步骤、调用错误接口甚至违反任务约束——只看最终答案已经不够。Claw-Eval是一个面向自主Agent的端到端评测框架,关注的不只是任务有没有完成,更关注任务是如何被完成的:过程是否可追溯,行为是否合规,异常发生后能否恢复。300个人工验证任务,从完成度、安全性和鲁棒性三个维度评估14个前沿模型。
开源地址:
- 数据集:https://modelscope.cn/datasets/claw-eval/Claw-Eval
- 排行榜:https://claw-eval.github.io/#/
- GitHub:https://github.com/claw-eval/claw-eval
技术框架:轻量运行层+真实任务
Agent 生态正在快速发展,不同系统在工具抽象、任务规划、上下文管理、重试机制、安全策略等方面都有各自实现。这些工程设计会直接影响 Agent 的行为,也会随着社区实践持续变化。
Claw-Eval 的选择是:运行层尽量轻量,任务本身足够真实。
在执行侧,Claw-Eval 保留了一套透明、可审计、可复现的"最大公约数"运行基座,通过 Setup → Execution → Judge 的生命周期,将模型行为、工具调用、服务端日志和环境快照完整记录下来。它不追求在默认运行层里加入复杂的工程增强,而是尽量减少运行时变量,让评测更稳定地观察模型本身在规划、工具使用、约束遵循、错误恢复和任务完成上的能力。
在任务侧,Claw-Eval 则尽可能贴近真实工作流:服务编排、多模态理解与生成、多轮专业对话,这些都是当前 Agent 落地中最常见、也最容易暴露问题的场景。
也就是说,Claw-Eval 的设计重点不是用复杂运行时"包装"Agent,而是用统一、轻量、可审计的执行基座承载真实任务,让不同模型在同一套可比条件下完成复杂工作流。
任务设计与评分体系
Claw-Eval 构建了 300 个经过人工验证的任务,覆盖 9 个细分类型,整体分为三大任务组:
- 通用服务任务:包括查询、日程安排、跨服务协作、数据检索、金融合规和运营流程等,重点考察 Agent 在多工具、多服务环境中的任务拆解与执行能力。
- 多模态任务:覆盖视频、文档、图像和代码生成视觉产物等场景。它不仅要求模型理解内容,还要求模型主动选择检查对象、生成结果,并确保最终产物符合任务要求。
- 多轮专业对话任务:模拟咨询、分析和决策场景。Agent 需要在信息不完整的情况下主动提问、澄清条件,并逐步形成最终建议。
三类任务对应了当前 Agent 落地中的主要能力要求:会用工具、会处理复杂信息、会在多轮交互中完成目标。
评分围绕三个维度展开:
- Completion — 任务是否完成,结果是否符合要求。
- Safety — 执行过程是否遵守约束,是否避免不该发生的行为。
- Robustness — 面对接口失败、服务延迟、临时错误时,是否能够恢复并继续执行。
同时报告Pass@3 (三次中至少成功一次,接近能力上限)和Pass^3 (三次全部成功,接近可靠性下限),区分"能力"与"稳定性"。
三个关键发现
论文实验覆盖了 14 个前沿模型,呈现出当前 Agent 能力评估中的几个重点问题。
只看对话轨迹并不可靠
实验中,普通 LLM Judge 即使看到完整对话记录和工具调用信息,仍然漏掉了 Claw-Eval 混合评测管线发现的 44% 安全违规和 13% 鲁棒性问题。这说明,Agent 评测不能只依赖文本记录,还需要结合服务端日志和环境快照。
能力不等于稳定性
Claw-Eval 同时报告 Pass@3 和 Pass^3:前者表示三次尝试中至少成功一次,更接近能力上限;后者表示三次尝试全部成功,更接近可靠性下限。在错误注入实验中,当 HTTP 429、HTTP 500、延迟峰值等问题出现时,Pass@3 相对稳定,但 Pass^3 最高下降 24 个百分点。这说明,一次成功不能代表稳定可用。
Agent 能力是多维的
不同模型在服务编排、多模态任务和多轮对话中的表现差异明显,没有一个模型能在所有任务类型上全面领先。尤其在多模态任务中,最高 Pass^3 只有 25.7%,说明多模态 Agent 仍然是当前模型的明显难点。
论文还发现,在多轮专业对话中,问得多不一定更好。真正影响结果的是问题质量,可以解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。这说明,一个好的 Agent 不只是会追问,更要知道当前最该问什么。
数据集使用
从魔搭下载数据集
modelscope download --dataset claw-eval/Claw-Eval --local_dir claw-eval/Claw-Eval
评估脚本:
from datasets import load_dataset # 加载全部划分 dataset = load_dataset("claw-eval/Claw-Eval") # 加载特定划分 general = load_dataset("claw-eval/Claw-Eval", split="general") multimodal = load_dataset("claw-eval/Claw-Eval", split="multimodal") multi_turn = load_dataset("claw-eval/Claw-Eval", split="multi_turn") # 查看样例 print(general[0])
每条任务包含唯一任务ID、任务指令、辅助文件列表、语言标识(en/zh)和任务领域分类。辅助文件可在data/fixtures.tar.gz中获取。
总结
Claw-Eval反映了Agent评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。对模型开发者来说,它帮助定位短板:工具调用、异常恢复还是多模态处理。对应用团队来说,它提供了更接近真实部署的判断标准:一个Agent是否值得上线,要看它能否在复杂环境中持续、安全、稳定地完成任务。Claw-Eval 的意义正在于:用轻量、统一、可审计的评测基座,结合真实复杂的任务场景,为更可信的自主智能体提供评估基础。
跳转模型链接
https://modelscope.cn/datasets/claw-eval/Claw-Eval