CHI-Bench 开源:75 个美国医疗长程工作流压测 30 个前沿 Agent,最强 Claude Code 仅过 28%,端到端医院–保险工司协作直接归零

简介: actAVA.ai联合约翰霍普金斯等20余家顶尖机构发布CHI-Bench——全球首个面向医疗长程工作流的Agent评测基准。覆盖处方授权、服务管理、护理管理三大领域75个真实任务,含21个医疗应用、200+工具及1279份运营手册。30个主流Agent在严苛指标下最高仅完成28%任务,端到端协作通过率为0%,凸显当前医疗AI能力瓶颈。

actAVA.ai 联合 Johns Hopkins、Wellstar、Yale、斯坦福、CMU、牛津、USC、UCSD 等 20 余家医疗机构与高校(Eric Xing、Sanmi Koyejo、Caiming Xiong、Philip S. Yu等)发布 CHI(χ)-Bench(Clinical Healthcare In-SituBenchmark),全球首个面向医疗长程工作流的 Agent 评测基准数据集。基准覆盖处方授权(Prior Authorization)、医疗服务使用管理(Utilization Management)、护理管理(Care Management) 三大领域共 75 个真实任务。仿真环境提供包含 21 个医疗应用软件、200+ MCP 工具和 1,279 份操作手册文档的大规模agentskill。

30 个前沿 Agent 配置(覆盖 Anthropic、OpenAI、Google、xAI、DeepSeek、Z.ai)评测结果:最强 Claude Code + Claude Opus 4.6 仅完成 28.0% 任务,没有任何 Agent 在严格的 pass^3 指标下超过 20%,端到端 provider-payer 协作任务通过率 0%。

开源地址:

  • ModelScope 数据集:

https://modelscope.cn/datasets/actava/chi-bench

  • Leaderboard:

https://actava.ai/benchmarks

  • GitHub:

https://github.com/actava-ai/chi-bench

  • arXiv 论文:

https://arxiv.org/pdf/2605.16679


01核心特性

  • 首个端到端医疗操作 Agent 基准  覆盖美国医疗最常见的三大长程业务流,每个任务跨 4–6 个临床阶段、60–80 步操作,由 Johns Hopkins 等机构临床医生与运营负责人共同构造。
  • 高保真模拟环境 χ-World  21 个常用医疗应用通过 200+ MCP 工具暴露给 Agent,内置 case 状态机、跨角色独立审查约束、文档签名与 FHIR 级别就诊关联,单次提交触发跨应用状态联动。
  • 1,279 文档大规模 Skill 投放  Managed-Care Operations Handbook 以 Skill 形式组织:顶层路由到三个角色子 Skill(Prior Auth专员、Utilization Management 审查员、Registered Nurse护理经理),共享两个附录(medical-library 与 platform),首次在真实医疗运营手册规模下评估 Agent Skill。
  • 复合验证器  每条 trial 由确定性合约 + 多票 LLM judge(pinned Claude Opus 4.7)联合打分,AND 运算输出二值奖励;可对世界状态、event log、多轮对话全量审计。
  • 三项压力测试  除单任务评测外,新增 χ-Bench-Arena(provider-payer 双 Agent 对弈)与 χ-Bench-Marathon(单 session 处理 25 任务),暴露 Agent 在协作与长 session 下的能力坍塌。


02 χ-World 引擎:高保真医疗操作模拟环境

真实的医疗工作流涉及四类角色:患者、临床医生(provider)、支付方(payer)、护理管理(care management)。χ-World 用 Python 实现了一套本地化、可容器化的高保真模拟器,跨上述四类角色完整复现 21 个常用医疗 App,开放 200+ MCP 工具与 3 个 MCP 服务器,内置数万条 chart activity、数百名模拟患者与医务人员。

三大业务域具体落地:

  • Provider PA(处方授权)  

5 个 App:核保险覆盖、组织临床证据、提交 PA 包、处理 RFI/Peer-to-Peer/申诉,直到终态。

  • Payer UM(利用率审查)  

10 个 App:受理请求、对照保单医疗政策、按护士与医学主任两级审查升级,输出最终裁定与函件。

  • Care Management(护理管理)  

5 个 App:审阅病历、外联患者、进行评估问卷、撰写护理计划。

环境的关键工程难点:case 状态机包含数十种合法转移;评审员独立性硬约束(同一 case 不允许同一审核员重复评审);不同提交渠道有不同语义;任何一步提交都是不可逆的 handoff——这些都是通用 Agent 基准里被完全忽略的真实属性。

图片:χ-World 引擎与三大业务域应用截图


03 1,279 文档管理化运营手册 Skill

仅有工具和数据库是不够的——真实医疗工作者需要长期学习专业流程、平台用法、保险政策。χ-Bench 提出了 Managed-Care Operations Handbook 这一核心 Skill,包含 1,279 份 markdown 文档,与 Johns Hopkins Medicine 的临床医生和运营负责人共同编写,以保证临床保真度与真实业务流对齐。

Skill 采用渐进披露的 wiki 式组织:顶层 SKILL.md 充当索引,按角色路由到 provider-pa(PA 专员)、payer-um(UM 审查员)、care-manager(RN 护理经理)三个子 Skill;两个共享附录 medical-library(千余份医疗政策、药物准入标准、临床指南)与 platform(角色专属平台教程)可从任一子 Skill 跳转访问。据作者所知,这是 Skill 体系首次以真实医疗运营工作流文库规模被评测。

图片:Handbook Skill 结构示意图


04任务构造与评测协议

每条任务形式化为分层 POMDP,由 Instruction、容器化 χ-World 环境、角色作用域工具集与两层验证器组成。任务构造经过三步流水线:

  • Step 1 — Case 生成  

Claude Opus 4.7 + 结构化 JSON 采样,从终态出发反向生成 chart 规格、提交包/患者画像,以及锚定到具体政策条文的 per-stage rubric。

  • Step 2 — 人工走查

标注员在真实 χ-World UI 上端到端跑一遍,录制 trajectory、DB 状态、workspace 提交、角色 handoff,作为 ground truth。

  • Step 3 — 多人审核  

每条 trajectory 至少经 1 名临床工作者 + 5 名作者审阅临床精度,并通过残留 PHI 扫描与临床现实性检查后方可入库。

从 523 个候选任务筛选出 75 个具代表性的长程任务,平均 21 步、最长 40 步完成。验证器采用 确定性合约 + 多票 LLM judge(pinned Claude Opus 4.7),按严格多数投票,trial 需两层同时通过才算成功;评测指标采用 pass@1、pass@3 与 pass^3(同一任务跑 3 次全过)三种。


05实验结果:长程医疗工作流远未被解决

5.1. 主榜:30 个 Agent 配置全景

评测覆盖两条 stack:proprietary stack(各厂商 first-party CLI + 闭源模型)与 open-source stack(4 个 Agent 框架 × 5 个 OpenRouter 服务的开源模型),共 30 个 harness/model 组合,每任务 3 次独立 trial。下表节选 pass@1 排名前列的代表性配置(pass@1 单位 %):

Agent Harness 模型 Overall pass@1 Overall pass^3 PA UM CM
Claude Code Claude Opus 4.6 28.0 18.7 18.7 41.3 24.0
Claude Code Claude Sonnet 4.6 26.2 12.0 24.0 34.7 20.0
Claude Code Claude Opus 4.7 24.4 10.7 24.0 17.3 32.0
Codex GPT-5.5 20.9 9.3 29.3 32.0 1.3
OAI Agents GLM-5.1 18.7 12.0 18.7 33.3 4.0
Hermes GLM-5.1 18.7 10.7 10.7 34.7 10.7
OpenClaw Claude Opus 4.7 17.3 4.0 18.7 13.3 20.0
OpenClaw GLM-5.1 16.9 6.7 13.3 26.7 10.7
Hermes Qwen 3.6 Max 16.4 5.3 9.3 26.7 13.3
Codex GPT-5.4 16.0 8.0 24.0 17.3 6.7
Gemini CLI Gemini 3 Flash 12.5 8.0 18.7 18.7 0.0
Gemini CLI Gemini 3.1 Pro 7.1 1.3 14.7 6.7 0.0

关键结论:

  • Claude Code + Opus 4.6 拿下 Overall pass@1 第一(28.0%),UM 子项亦最优(41.3%)。
  • PA 单项最佳为 Codex + GPT-5.5(29.3%),CM 单项最佳为 Claude Code + Opus 4.7(32.0%),无单一配置全域领先。
  • Grok 4.3 在所有 harness 下均接近全军覆没(Overall pass@1 < 6%),是性价比最差的群体。
  • OAI Agents + GLM-5.1 以 0.27 美元/trial 的极低成本拿到 18.7% pass@1,是 Pareto 前沿上的 Sweet Spot。


5.2. 可靠性坍塌:pass^3 严苛指标下无一过 20%

将 pass@1 收紧为 pass^3(同一任务连续 3 次都通过)后,全部配置出现明显下滑:Opus 4.6 由 28.0% 跌至 18.7%,GPT-5.5 由 20.9% 跌至 9.3%,OAI Agents + GLM-5.1 由 18.7% 跌至 12.0%。这暴露出 Agent 在真实生产场景中难以承受的 run-to-run 不一致性。

图片:pass@k vs pass^k 衰减曲线


5.3. χ-Bench-Arena:端到端两 Agent 协作直接归零

Arena 让一个 provider Agent 与一个 payer Agent 在 23 个 PA 任务上对弈,二者各自持有角色作用域的 MCP 工具与状态,仅通过 MCP 工具交换信息。两侧分别独立打分,trial 需两侧所有检查通过才算成功。

配置 pass@1
PA 单 Agent(23 任务基线) 30.4%
E2E 两 Agent 协作 0.0%


23 个任务中:2 个未被成功提交;18 个未走完 MD 决策环节;5 个最终判定不通过。在 5 个明确要求 Peer-to-Peer 的任务上,没有一个 P2P 请求被成功发起,反而出现 2 次本不需要的 P2P。结果说明:当前最强单 Agent 的能力,在 handoff 与跨角色协调的链路上几乎无法迁移。

5.4. χ-Bench-Marathon:25 任务挤在一个 session 里通过率不足 4%

Marathon 把同一个域的全部 25 个任务装进一个共享 χ-World 中,要求 Agent 在单次运行内列出并逐个完成,context 压缩沿用各 harness 默认设置。结果如下:

Agent + 模型 PA Marathon UM Marathon CM Marathon
Codex + GPT-5.5 8.0% (-21.3) 2.7% (-29.3) 0.0% (-1.3)
Claude Code + Opus 4.7 8.0% (-16.0) 1.3% (-16.0) 2.7% (-29.3)

在 PA 上,两个 Agent 都未能成功提交任何一份授权,尽管它们在写侧调用了大量工具;在 UM 与 CM 上,每个 session 也只能将 3–8 个 case 推到终态。Codex 在 PA 每个 session 触发 auto-compact 4–6 次,而 Claude Code(1M context)从不压缩,却完成数量相当——这意味着上下文容量并非主要瓶颈,注意力分散与目标维持失败才是。


06失败模式:临床推理与政策合规是最大瓶颈

对 5,886 条失败 trial 按两级分类法做归因,一级类别分布如下:

失败类别 占比 说明
Clinical-Reasoning 35.4% 医学或协议判断错误
Workflow-Completion 23.3% 必需的终态动作未被触发
Abstain-or-Stuck 15.6% wall-clock 超时、死循环、过早结束或拒绝执行
Policy-Compliance 13.2% 字面误读政策条文
Tool-Use-Error 10.7% 工具调用格式错误,集中在 DeepAgents
Harness-Fault 1.0% 非 Agent 侧故障
Hallucination 0.8% 虚构信息

二级模式中三项贡献最大:criteria misapplication(看到了证据但作出错误判断)、skipped required steps(18.7%)、policy criteria misreading(13.2%)。

在 CM 域中出现一类专属失败:illegitimate consent(337 条失败,5.7%)——Agent 反复改写、扩大护理项目范围,直到一开始明确拒绝的患者最终说出 yes,违反 autonomy-first 原则。这意味着完成度(completion)单一指标不足以衡量安全性。

图片:失败模式一级分类分布图


07快速上手

7.1. 环境准备

先决条件:Python 3.12+、Docker、uv。

# 克隆并安装
git clone https://github.com/actava-ai/chi-bench && cd chi-bench
uv sync --extra dev

配置 API key(复制 .env.example 为 .env 后填写):

  • ANTHROPIC_API_KEY  必需,workspace judge 固定使用 claude-opus-4-7。
  • OPENAI_API_KEY / GEMINI_API_KEY / OPENROUTER_API_KEY  按需,分别用于 Codex、Gemini CLI、开源 stack 行。


7.2. 下载数据集与构建镜像

# 登录 Hugging Face 后下载固定 revision
uv run huggingface-cli login
REV=chi-bench-v1.0.0
uv run huggingface-cli download actava/chi-bench --repo-type dataset --revision "$REV" --local-dir data/
echo "$REV" > data/.chi-bench-version

Managed-Care Operations Handbook 因数据源协议,需在 actava.ai/benchmarks/contact 申请访问后下载 tar 包解压到 data/skills/。镜像构建一次约 5 分钟:

uv run cb docker build

7.3. 运行一条 trial

# 单任务单模型试跑
uv run cb experiment run --dataset <task-dir> --agent <id> --model <id>

通过 YAML 一次驱动全流程(validate / run / status / prepare):

uv run cb submission validate -f configs/submissions/<id>.yaml
uv run cb submission run      -f configs/submissions/<id>.yaml
uv run cb submission status   -f configs/submissions/<id>.yaml
uv run cb submission prepare  -f configs/submissions/<id>.yaml

复现 paper 表格(自动拆解为按行执行的子命令,支持 –modal 参数并行):

./scripts/run_table.sh table1
./scripts/run_table.sh table1 --modal

Leaderboard 当前已开放社区提交,仓库以 Apache 2.0 协议开源。


08写在最后

χ-Bench 用 75 个真实长程任务、200+ MCP 工具与 1,279 份运营手册文档,把”Agent 自动化端到端医疗工作流”这件事第一次拉到了可量化的台面上。结论很直接:长程上下文、政策密度、跨角色 handoff、与人对话四件事缠绕在一起时,当前最强 Agent 的能力仍远未及格——单任务 28%、严苛 pass^3 不足 20%、单 session 多任务跌至 3.8%、端到端协作归零。

正如作者所言,χ-Bench 是一次有意为之的压力测试:28% 通过率不足以承接活体患者业务。本文揭示的失败模式(临床推理误判、必要步骤跳过、政策字面误读、不当同意获取)会直接转化为临床、财务与合规风险。基准开源的目的,是希望在不可逆的医疗工作流上部署 Agent 之前,行业能多一份审慎与可验证的把手。

目录
相关文章
|
6天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
3061 10
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
14天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3487 12
|
16天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3573 25
|
10天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2758 6
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
8天前
|
人工智能 自然语言处理 供应链
|
8天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
1304 3
|
29天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23612 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
1天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY

热门文章

最新文章