Claw-Eval开源:300个真实任务,端到端评测AI智能体的完成度、安全性与鲁棒性

简介: Claw-Eval是面向自主Agent的端到端评测框架,突破“只看结果”局限,聚焦任务执行全过程——可追溯、合规、容错。基于300个人工验证的真实任务,从完成度、安全性、鲁棒性三维度评估14个前沿模型,开源数据集、排行榜及代码。

随着大模型从"回答问题"走向"执行任务",Agent评测正在成为能力评估的关键方向。一个Agent可能给出看似合理的结果,却在执行过程中遗漏关键步骤、调用错误接口甚至违反任务约束——只看最终答案已经不够。Claw-Eval是一个面向自主Agent的端到端评测框架,关注的不只是任务有没有完成,更关注任务是如何被完成的:过程是否可追溯,行为是否合规,异常发生后能否恢复。300个人工验证任务,从完成度、安全性和鲁棒性三个维度评估14个前沿模型。


开源地址

  • 数据集:https://modelscope.cn/datasets/claw-eval/Claw-Eval
  • 排行榜:https://claw-eval.github.io/#/
  • GitHub:https://github.com/claw-eval/claw-eval

技术框架:轻量运行层+真实任务

Agent 生态正在快速发展,不同系统在工具抽象、任务规划、上下文管理、重试机制、安全策略等方面都有各自实现。这些工程设计会直接影响 Agent 的行为,也会随着社区实践持续变化。

Claw-Eval 的选择是:运行层尽量轻量,任务本身足够真实。

在执行侧,Claw-Eval 保留了一套透明、可审计、可复现的"最大公约数"运行基座,通过 Setup → Execution → Judge 的生命周期,将模型行为、工具调用、服务端日志和环境快照完整记录下来。它不追求在默认运行层里加入复杂的工程增强,而是尽量减少运行时变量,让评测更稳定地观察模型本身在规划、工具使用、约束遵循、错误恢复和任务完成上的能力。

在任务侧,Claw-Eval 则尽可能贴近真实工作流:服务编排、多模态理解与生成、多轮专业对话,这些都是当前 Agent 落地中最常见、也最容易暴露问题的场景。

也就是说,Claw-Eval 的设计重点不是用复杂运行时"包装"Agent,而是用统一、轻量、可审计的执行基座承载真实任务,让不同模型在同一套可比条件下完成复杂工作流。


任务设计与评分体系

Claw-Eval 构建了 300 个经过人工验证的任务,覆盖 9 个细分类型,整体分为三大任务组:

  • 通用服务任务:包括查询、日程安排、跨服务协作、数据检索、金融合规和运营流程等,重点考察 Agent 在多工具、多服务环境中的任务拆解与执行能力。
  • 多模态任务:覆盖视频、文档、图像和代码生成视觉产物等场景。它不仅要求模型理解内容,还要求模型主动选择检查对象、生成结果,并确保最终产物符合任务要求。
  • 多轮专业对话任务:模拟咨询、分析和决策场景。Agent 需要在信息不完整的情况下主动提问、澄清条件,并逐步形成最终建议。

三类任务对应了当前 Agent 落地中的主要能力要求:会用工具、会处理复杂信息、会在多轮交互中完成目标。

评分围绕三个维度展开:

  • Completion — 任务是否完成,结果是否符合要求。
  • Safety — 执行过程是否遵守约束,是否避免不该发生的行为。
  • Robustness — 面对接口失败、服务延迟、临时错误时,是否能够恢复并继续执行。

同时报告Pass@3 (三次中至少成功一次,接近能力上限)和Pass^3 (三次全部成功,接近可靠性下限),区分"能力"与"稳定性"。


三个关键发现

论文实验覆盖了 14 个前沿模型,呈现出当前 Agent 能力评估中的几个重点问题。

只看对话轨迹并不可靠

实验中,普通 LLM Judge 即使看到完整对话记录和工具调用信息,仍然漏掉了 Claw-Eval 混合评测管线发现的 44% 安全违规和 13% 鲁棒性问题。这说明,Agent 评测不能只依赖文本记录,还需要结合服务端日志和环境快照。


能力不等于稳定性

Claw-Eval 同时报告 Pass@3 和 Pass^3:前者表示三次尝试中至少成功一次,更接近能力上限;后者表示三次尝试全部成功,更接近可靠性下限。在错误注入实验中,当 HTTP 429、HTTP 500、延迟峰值等问题出现时,Pass@3 相对稳定,但 Pass^3 最高下降 24 个百分点。这说明,一次成功不能代表稳定可用。


Agent 能力是多维的

不同模型在服务编排、多模态任务和多轮对话中的表现差异明显,没有一个模型能在所有任务类型上全面领先。尤其在多模态任务中,最高 Pass^3 只有 25.7%,说明多模态 Agent 仍然是当前模型的明显难点。

论文还发现,在多轮专业对话中,问得多不一定更好。真正影响结果的是问题质量,可以解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。这说明,一个好的 Agent 不只是会追问,更要知道当前最该问什么。



数据集使用

从魔搭下载数据集

modelscope download --dataset claw-eval/Claw-Eval --local_dir  claw-eval/Claw-Eval


评估脚本:

from datasets import load_dataset
# 加载全部划分
dataset = load_dataset("claw-eval/Claw-Eval")
# 加载特定划分
general = load_dataset("claw-eval/Claw-Eval", split="general")
multimodal = load_dataset("claw-eval/Claw-Eval", split="multimodal")
multi_turn = load_dataset("claw-eval/Claw-Eval", split="multi_turn")
# 查看样例
print(general[0])


每条任务包含唯一任务ID、任务指令、辅助文件列表、语言标识(en/zh)和任务领域分类。辅助文件可在data/fixtures.tar.gz中获取。


总结

Claw-Eval反映了Agent评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。对模型开发者来说,它帮助定位短板:工具调用、异常恢复还是多模态处理。对应用团队来说,它提供了更接近真实部署的判断标准:一个Agent是否值得上线,要看它能否在复杂环境中持续、安全、稳定地完成任务。Claw-Eval 的意义正在于:用轻量、统一、可审计的评测基座,结合真实复杂的任务场景,为更可信的自主智能体提供评估基础。


跳转模型链接

https://modelscope.cn/datasets/claw-eval/Claw-Eval


目录
相关文章
|
11天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3297 10
|
3天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
1664 5
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
14天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3348 24
|
7天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2390 4
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
26天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23599 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
13天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2875 3
|
5天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
957 2
|
12天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)

热门文章

最新文章