Claw-Eval开源：300个真实任务，端到端评测AI智能体的完成度、安全性与鲁棒性-阿里云开发者社区

Claw-Eval开源：300个真实任务，端到端评测AI智能体的完成度、安全性与鲁棒性

2026-05-25 32

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Claw-Eval是面向自主Agent的端到端评测框架，突破“只看结果”局限，聚焦任务执行全过程——可追溯、合规、容错。基于300个人工验证的真实任务，从完成度、安全性、鲁棒性三维度评估14个前沿模型，开源数据集、排行榜及代码。

随着大模型从"回答问题"走向"执行任务"，Agent评测正在成为能力评估的关键方向。一个Agent可能给出看似合理的结果，却在执行过程中遗漏关键步骤、调用错误接口甚至违反任务约束——只看最终答案已经不够。Claw-Eval是一个面向自主Agent的端到端评测框架，关注的不只是任务有没有完成，更关注任务是如何被完成的：过程是否可追溯，行为是否合规，异常发生后能否恢复。300个人工验证任务，从完成度、安全性和鲁棒性三个维度评估14个前沿模型。

开源地址：

数据集：https://modelscope.cn/datasets/claw-eval/Claw-Eval
排行榜：https://claw-eval.github.io/#/
GitHub：https://github.com/claw-eval/claw-eval

技术框架：轻量运行层+真实任务

Agent 生态正在快速发展，不同系统在工具抽象、任务规划、上下文管理、重试机制、安全策略等方面都有各自实现。这些工程设计会直接影响 Agent 的行为，也会随着社区实践持续变化。

Claw-Eval 的选择是：运行层尽量轻量，任务本身足够真实。

在执行侧，Claw-Eval 保留了一套透明、可审计、可复现的"最大公约数"运行基座，通过 Setup → Execution → Judge 的生命周期，将模型行为、工具调用、服务端日志和环境快照完整记录下来。它不追求在默认运行层里加入复杂的工程增强，而是尽量减少运行时变量，让评测更稳定地观察模型本身在规划、工具使用、约束遵循、错误恢复和任务完成上的能力。

在任务侧，Claw-Eval 则尽可能贴近真实工作流：服务编排、多模态理解与生成、多轮专业对话，这些都是当前 Agent 落地中最常见、也最容易暴露问题的场景。

也就是说，Claw-Eval 的设计重点不是用复杂运行时"包装"Agent，而是用统一、轻量、可审计的执行基座承载真实任务，让不同模型在同一套可比条件下完成复杂工作流。

任务设计与评分体系

Claw-Eval 构建了 300 个经过人工验证的任务，覆盖 9 个细分类型，整体分为三大任务组：

通用服务任务：包括查询、日程安排、跨服务协作、数据检索、金融合规和运营流程等，重点考察 Agent 在多工具、多服务环境中的任务拆解与执行能力。
多模态任务：覆盖视频、文档、图像和代码生成视觉产物等场景。它不仅要求模型理解内容，还要求模型主动选择检查对象、生成结果，并确保最终产物符合任务要求。
多轮专业对话任务：模拟咨询、分析和决策场景。Agent 需要在信息不完整的情况下主动提问、澄清条件，并逐步形成最终建议。

三类任务对应了当前 Agent 落地中的主要能力要求：会用工具、会处理复杂信息、会在多轮交互中完成目标。

评分围绕三个维度展开：

Completion — 任务是否完成，结果是否符合要求。
Safety — 执行过程是否遵守约束，是否避免不该发生的行为。
Robustness — 面对接口失败、服务延迟、临时错误时，是否能够恢复并继续执行。

同时报告Pass@3 （三次中至少成功一次，接近能力上限）和Pass^3 （三次全部成功，接近可靠性下限），区分"能力"与"稳定性"。

三个关键发现

论文实验覆盖了 14 个前沿模型，呈现出当前 Agent 能力评估中的几个重点问题。

只看对话轨迹并不可靠

实验中，普通 LLM Judge 即使看到完整对话记录和工具调用信息，仍然漏掉了 Claw-Eval 混合评测管线发现的 44% 安全违规和 13% 鲁棒性问题。这说明，Agent 评测不能只依赖文本记录，还需要结合服务端日志和环境快照。

能力不等于稳定性

Claw-Eval 同时报告 Pass@3 和 Pass^3：前者表示三次尝试中至少成功一次，更接近能力上限；后者表示三次尝试全部成功，更接近可靠性下限。在错误注入实验中，当 HTTP 429、HTTP 500、延迟峰值等问题出现时，Pass@3 相对稳定，但 Pass^3 最高下降 24 个百分点。这说明，一次成功不能代表稳定可用。

Agent 能力是多维的

不同模型在服务编排、多模态任务和多轮对话中的表现差异明显，没有一个模型能在所有任务类型上全面领先。尤其在多模态任务中，最高 Pass^3 只有 25.7%，说明多模态 Agent 仍然是当前模型的明显难点。

论文还发现，在多轮专业对话中，问得多不一定更好。真正影响结果的是问题质量，可以解释 76% 的 Pass^3 表现差异，而平均对话轮数与最终表现几乎没有相关性。这说明，一个好的 Agent 不只是会追问，更要知道当前最该问什么。

数据集使用

从魔搭下载数据集

modelscope download --dataset claw-eval/Claw-Eval --local_dir  claw-eval/Claw-Eval

评估脚本：

from datasets import load_dataset
# 加载全部划分
dataset = load_dataset("claw-eval/Claw-Eval")
# 加载特定划分
general = load_dataset("claw-eval/Claw-Eval", split="general")
multimodal = load_dataset("claw-eval/Claw-Eval", split="multimodal")
multi_turn = load_dataset("claw-eval/Claw-Eval", split="multi_turn")
# 查看样例
print(general[0])

每条任务包含唯一任务ID、任务指令、辅助文件列表、语言标识（en/zh）和任务领域分类。辅助文件可在data/fixtures.tar.gz中获取。

总结

Claw-Eval反映了Agent评测范式的转变：从看最终答案到看完整过程，从展示能力到验证可靠性，从单次成功到稳定、可审计、可复核的任务完成。对模型开发者来说，它帮助定位短板：工具调用、异常恢复还是多模态处理。对应用团队来说，它提供了更接近真实部署的判断标准：一个Agent是否值得上线，要看它能否在复杂环境中持续、安全、稳定地完成任务。Claw-Eval 的意义正在于：用轻量、统一、可审计的评测基座，结合真实复杂的任务场景，为更可信的自主智能体提供评估基础。

跳转模型链接

https://modelscope.cn/datasets/claw-eval/Claw-Eval