actAVA.ai 联合 Johns Hopkins、Wellstar、Yale、斯坦福、CMU、牛津、USC、UCSD 等 20 余家医疗机构与高校(Eric Xing、Sanmi Koyejo、Caiming Xiong、Philip S. Yu等)发布 CHI(χ)-Bench(Clinical Healthcare In-SituBenchmark),全球首个面向医疗长程工作流的 Agent 评测基准数据集。基准覆盖处方授权(Prior Authorization)、医疗服务使用管理(Utilization Management)、护理管理(Care Management) 三大领域共 75 个真实任务。仿真环境提供包含 21 个医疗应用软件、200+ MCP 工具和 1,279 份操作手册文档的大规模agentskill。
30 个前沿 Agent 配置(覆盖 Anthropic、OpenAI、Google、xAI、DeepSeek、Z.ai)评测结果:最强 Claude Code + Claude Opus 4.6 仅完成 28.0% 任务,没有任何 Agent 在严格的 pass^3 指标下超过 20%,端到端 provider-payer 协作任务通过率 0%。
开源地址:
- ModelScope 数据集:
https://modelscope.cn/datasets/actava/chi-bench
- Leaderboard:
https://actava.ai/benchmarks
- GitHub:
https://github.com/actava-ai/chi-bench
- arXiv 论文:
https://arxiv.org/pdf/2605.16679
01核心特性
- 首个端到端医疗操作 Agent 基准 覆盖美国医疗最常见的三大长程业务流,每个任务跨 4–6 个临床阶段、60–80 步操作,由 Johns Hopkins 等机构临床医生与运营负责人共同构造。
- 高保真模拟环境 χ-World 21 个常用医疗应用通过 200+ MCP 工具暴露给 Agent,内置 case 状态机、跨角色独立审查约束、文档签名与 FHIR 级别就诊关联,单次提交触发跨应用状态联动。
- 1,279 文档大规模 Skill 投放 Managed-Care Operations Handbook 以 Skill 形式组织:顶层路由到三个角色子 Skill(Prior Auth专员、Utilization Management 审查员、Registered Nurse护理经理),共享两个附录(medical-library 与 platform),首次在真实医疗运营手册规模下评估 Agent Skill。
- 复合验证器 每条 trial 由确定性合约 + 多票 LLM judge(pinned Claude Opus 4.7)联合打分,AND 运算输出二值奖励;可对世界状态、event log、多轮对话全量审计。
- 三项压力测试 除单任务评测外,新增 χ-Bench-Arena(provider-payer 双 Agent 对弈)与 χ-Bench-Marathon(单 session 处理 25 任务),暴露 Agent 在协作与长 session 下的能力坍塌。
02 χ-World 引擎:高保真医疗操作模拟环境
真实的医疗工作流涉及四类角色:患者、临床医生(provider)、支付方(payer)、护理管理(care management)。χ-World 用 Python 实现了一套本地化、可容器化的高保真模拟器,跨上述四类角色完整复现 21 个常用医疗 App,开放 200+ MCP 工具与 3 个 MCP 服务器,内置数万条 chart activity、数百名模拟患者与医务人员。
三大业务域具体落地:
- Provider PA(处方授权)
5 个 App:核保险覆盖、组织临床证据、提交 PA 包、处理 RFI/Peer-to-Peer/申诉,直到终态。
- Payer UM(利用率审查)
10 个 App:受理请求、对照保单医疗政策、按护士与医学主任两级审查升级,输出最终裁定与函件。
- Care Management(护理管理)
5 个 App:审阅病历、外联患者、进行评估问卷、撰写护理计划。
环境的关键工程难点:case 状态机包含数十种合法转移;评审员独立性硬约束(同一 case 不允许同一审核员重复评审);不同提交渠道有不同语义;任何一步提交都是不可逆的 handoff——这些都是通用 Agent 基准里被完全忽略的真实属性。
图片:χ-World 引擎与三大业务域应用截图
03 1,279 文档管理化运营手册 Skill
仅有工具和数据库是不够的——真实医疗工作者需要长期学习专业流程、平台用法、保险政策。χ-Bench 提出了 Managed-Care Operations Handbook 这一核心 Skill,包含 1,279 份 markdown 文档,与 Johns Hopkins Medicine 的临床医生和运营负责人共同编写,以保证临床保真度与真实业务流对齐。
Skill 采用渐进披露的 wiki 式组织:顶层 SKILL.md 充当索引,按角色路由到 provider-pa(PA 专员)、payer-um(UM 审查员)、care-manager(RN 护理经理)三个子 Skill;两个共享附录 medical-library(千余份医疗政策、药物准入标准、临床指南)与 platform(角色专属平台教程)可从任一子 Skill 跳转访问。据作者所知,这是 Skill 体系首次以真实医疗运营工作流文库规模被评测。
图片:Handbook Skill 结构示意图
04任务构造与评测协议
每条任务形式化为分层 POMDP,由 Instruction、容器化 χ-World 环境、角色作用域工具集与两层验证器组成。任务构造经过三步流水线:
- Step 1 — Case 生成
Claude Opus 4.7 + 结构化 JSON 采样,从终态出发反向生成 chart 规格、提交包/患者画像,以及锚定到具体政策条文的 per-stage rubric。
- Step 2 — 人工走查
标注员在真实 χ-World UI 上端到端跑一遍,录制 trajectory、DB 状态、workspace 提交、角色 handoff,作为 ground truth。
- Step 3 — 多人审核
每条 trajectory 至少经 1 名临床工作者 + 5 名作者审阅临床精度,并通过残留 PHI 扫描与临床现实性检查后方可入库。
从 523 个候选任务筛选出 75 个具代表性的长程任务,平均 21 步、最长 40 步完成。验证器采用 确定性合约 + 多票 LLM judge(pinned Claude Opus 4.7),按严格多数投票,trial 需两层同时通过才算成功;评测指标采用 pass@1、pass@3 与 pass^3(同一任务跑 3 次全过)三种。
05实验结果:长程医疗工作流远未被解决
5.1. 主榜:30 个 Agent 配置全景
评测覆盖两条 stack:proprietary stack(各厂商 first-party CLI + 闭源模型)与 open-source stack(4 个 Agent 框架 × 5 个 OpenRouter 服务的开源模型),共 30 个 harness/model 组合,每任务 3 次独立 trial。下表节选 pass@1 排名前列的代表性配置(pass@1 单位 %):
| Agent Harness | 模型 | Overall pass@1 | Overall pass^3 | PA | UM | CM |
| Claude Code | Claude Opus 4.6 | 28.0 | 18.7 | 18.7 | 41.3 | 24.0 |
| Claude Code | Claude Sonnet 4.6 | 26.2 | 12.0 | 24.0 | 34.7 | 20.0 |
| Claude Code | Claude Opus 4.7 | 24.4 | 10.7 | 24.0 | 17.3 | 32.0 |
| Codex | GPT-5.5 | 20.9 | 9.3 | 29.3 | 32.0 | 1.3 |
| OAI Agents | GLM-5.1 | 18.7 | 12.0 | 18.7 | 33.3 | 4.0 |
| Hermes | GLM-5.1 | 18.7 | 10.7 | 10.7 | 34.7 | 10.7 |
| OpenClaw | Claude Opus 4.7 | 17.3 | 4.0 | 18.7 | 13.3 | 20.0 |
| OpenClaw | GLM-5.1 | 16.9 | 6.7 | 13.3 | 26.7 | 10.7 |
| Hermes | Qwen 3.6 Max | 16.4 | 5.3 | 9.3 | 26.7 | 13.3 |
| Codex | GPT-5.4 | 16.0 | 8.0 | 24.0 | 17.3 | 6.7 |
| Gemini CLI | Gemini 3 Flash | 12.5 | 8.0 | 18.7 | 18.7 | 0.0 |
| Gemini CLI | Gemini 3.1 Pro | 7.1 | 1.3 | 14.7 | 6.7 | 0.0 |
关键结论:
- Claude Code + Opus 4.6 拿下 Overall pass@1 第一(28.0%),UM 子项亦最优(41.3%)。
- PA 单项最佳为 Codex + GPT-5.5(29.3%),CM 单项最佳为 Claude Code + Opus 4.7(32.0%),无单一配置全域领先。
- Grok 4.3 在所有 harness 下均接近全军覆没(Overall pass@1 < 6%),是性价比最差的群体。
- OAI Agents + GLM-5.1 以 0.27 美元/trial 的极低成本拿到 18.7% pass@1,是 Pareto 前沿上的 Sweet Spot。
5.2. 可靠性坍塌:pass^3 严苛指标下无一过 20%
将 pass@1 收紧为 pass^3(同一任务连续 3 次都通过)后,全部配置出现明显下滑:Opus 4.6 由 28.0% 跌至 18.7%,GPT-5.5 由 20.9% 跌至 9.3%,OAI Agents + GLM-5.1 由 18.7% 跌至 12.0%。这暴露出 Agent 在真实生产场景中难以承受的 run-to-run 不一致性。
图片:pass@k vs pass^k 衰减曲线
5.3. χ-Bench-Arena:端到端两 Agent 协作直接归零
Arena 让一个 provider Agent 与一个 payer Agent 在 23 个 PA 任务上对弈,二者各自持有角色作用域的 MCP 工具与状态,仅通过 MCP 工具交换信息。两侧分别独立打分,trial 需两侧所有检查通过才算成功。
| 配置 | pass@1 |
| PA 单 Agent(23 任务基线) | 30.4% |
| E2E 两 Agent 协作 | 0.0% |
23 个任务中:2 个未被成功提交;18 个未走完 MD 决策环节;5 个最终判定不通过。在 5 个明确要求 Peer-to-Peer 的任务上,没有一个 P2P 请求被成功发起,反而出现 2 次本不需要的 P2P。结果说明:当前最强单 Agent 的能力,在 handoff 与跨角色协调的链路上几乎无法迁移。
5.4. χ-Bench-Marathon:25 任务挤在一个 session 里通过率不足 4%
Marathon 把同一个域的全部 25 个任务装进一个共享 χ-World 中,要求 Agent 在单次运行内列出并逐个完成,context 压缩沿用各 harness 默认设置。结果如下:
| Agent + 模型 | PA Marathon | UM Marathon | CM Marathon |
| Codex + GPT-5.5 | 8.0% (-21.3) | 2.7% (-29.3) | 0.0% (-1.3) |
| Claude Code + Opus 4.7 | 8.0% (-16.0) | 1.3% (-16.0) | 2.7% (-29.3) |
在 PA 上,两个 Agent 都未能成功提交任何一份授权,尽管它们在写侧调用了大量工具;在 UM 与 CM 上,每个 session 也只能将 3–8 个 case 推到终态。Codex 在 PA 每个 session 触发 auto-compact 4–6 次,而 Claude Code(1M context)从不压缩,却完成数量相当——这意味着上下文容量并非主要瓶颈,注意力分散与目标维持失败才是。
06失败模式:临床推理与政策合规是最大瓶颈
对 5,886 条失败 trial 按两级分类法做归因,一级类别分布如下:
| 失败类别 | 占比 | 说明 |
| Clinical-Reasoning | 35.4% | 医学或协议判断错误 |
| Workflow-Completion | 23.3% | 必需的终态动作未被触发 |
| Abstain-or-Stuck | 15.6% | wall-clock 超时、死循环、过早结束或拒绝执行 |
| Policy-Compliance | 13.2% | 字面误读政策条文 |
| Tool-Use-Error | 10.7% | 工具调用格式错误,集中在 DeepAgents |
| Harness-Fault | 1.0% | 非 Agent 侧故障 |
| Hallucination | 0.8% | 虚构信息 |
二级模式中三项贡献最大:criteria misapplication(看到了证据但作出错误判断)、skipped required steps(18.7%)、policy criteria misreading(13.2%)。
在 CM 域中出现一类专属失败:illegitimate consent(337 条失败,5.7%)——Agent 反复改写、扩大护理项目范围,直到一开始明确拒绝的患者最终说出 yes,违反 autonomy-first 原则。这意味着完成度(completion)单一指标不足以衡量安全性。
图片:失败模式一级分类分布图
07快速上手
7.1. 环境准备
先决条件:Python 3.12+、Docker、uv。
# 克隆并安装 git clone https://github.com/actava-ai/chi-bench && cd chi-bench uv sync --extra dev
配置 API key(复制 .env.example 为 .env 后填写):
- ANTHROPIC_API_KEY 必需,workspace judge 固定使用 claude-opus-4-7。
- OPENAI_API_KEY / GEMINI_API_KEY / OPENROUTER_API_KEY 按需,分别用于 Codex、Gemini CLI、开源 stack 行。
7.2. 下载数据集与构建镜像
# 登录 Hugging Face 后下载固定 revision uv run huggingface-cli login REV=chi-bench-v1.0.0 uv run huggingface-cli download actava/chi-bench --repo-type dataset --revision "$REV" --local-dir data/ echo "$REV" > data/.chi-bench-version
Managed-Care Operations Handbook 因数据源协议,需在 actava.ai/benchmarks/contact 申请访问后下载 tar 包解压到 data/skills/。镜像构建一次约 5 分钟:
uv run cb docker build
7.3. 运行一条 trial
# 单任务单模型试跑 uv run cb experiment run --dataset <task-dir> --agent <id> --model <id>
通过 YAML 一次驱动全流程(validate / run / status / prepare):
uv run cb submission validate -f configs/submissions/<id>.yaml uv run cb submission run -f configs/submissions/<id>.yaml uv run cb submission status -f configs/submissions/<id>.yaml uv run cb submission prepare -f configs/submissions/<id>.yaml
复现 paper 表格(自动拆解为按行执行的子命令,支持 –modal 参数并行):
./scripts/run_table.sh table1 ./scripts/run_table.sh table1 --modal
Leaderboard 当前已开放社区提交,仓库以 Apache 2.0 协议开源。
08写在最后
χ-Bench 用 75 个真实长程任务、200+ MCP 工具与 1,279 份运营手册文档,把”Agent 自动化端到端医疗工作流”这件事第一次拉到了可量化的台面上。结论很直接:长程上下文、政策密度、跨角色 handoff、与人对话四件事缠绕在一起时,当前最强 Agent 的能力仍远未及格——单任务 28%、严苛 pass^3 不足 20%、单 session 多任务跌至 3.8%、端到端协作归零。
正如作者所言,χ-Bench 是一次有意为之的压力测试:28% 通过率不足以承接活体患者业务。本文揭示的失败模式(临床推理误判、必要步骤跳过、政策字面误读、不当同意获取)会直接转化为临床、财务与合规风险。基准开源的目的,是希望在不可逆的医疗工作流上部署 Agent 之前,行业能多一份审慎与可验证的把手。