CHI-Bench 开源：75 个美国医疗长程工作流压测 30 个前沿 Agent，最强 Claude Code 仅过 28%，端到端医院

actAVA.ai 联合 Johns Hopkins、Wellstar、Yale、斯坦福、CMU、牛津、USC、UCSD 等 20 余家医疗机构与高校（Eric Xing、Sanmi Koyejo、Caiming Xiong、Philip S. Yu等）发布 CHI(χ)-Bench（Clinical Healthcare In-SituBenchmark），全球首个面向医疗长程工作流的 Agent 评测基准数据集。基准覆盖处方授权（Prior Authorization）、医疗服务使用管理（Utilization Management）、护理管理（Care Management）三大领域共 75 个真实任务。仿真环境提供包含 21 个医疗应用软件、200+ MCP 工具和 1,279 份操作手册文档的大规模agentskill。

30 个前沿 Agent 配置（覆盖 Anthropic、OpenAI、Google、xAI、DeepSeek、Z.ai）评测结果：最强 Claude Code + Claude Opus 4.6 仅完成 28.0% 任务，没有任何 Agent 在严格的 pass^3 指标下超过 20%，端到端 provider-payer 协作任务通过率 0%。

开源地址：

ModelScope 数据集：

https://modelscope.cn/datasets/actava/chi-bench

Leaderboard：

https://actava.ai/benchmarks

GitHub：

https://github.com/actava-ai/chi-bench

arXiv 论文：

https://arxiv.org/pdf/2605.16679

01核心特性

首个端到端医疗操作 Agent 基准覆盖美国医疗最常见的三大长程业务流，每个任务跨 4–6 个临床阶段、60–80 步操作，由 Johns Hopkins 等机构临床医生与运营负责人共同构造。
高保真模拟环境 χ-World 21 个常用医疗应用通过 200+ MCP 工具暴露给 Agent，内置 case 状态机、跨角色独立审查约束、文档签名与 FHIR 级别就诊关联，单次提交触发跨应用状态联动。
1,279 文档大规模 Skill 投放 Managed-Care Operations Handbook 以 Skill 形式组织：顶层路由到三个角色子 Skill（Prior Auth专员、Utilization Management 审查员、Registered Nurse护理经理），共享两个附录（medical-library 与 platform），首次在真实医疗运营手册规模下评估 Agent Skill。
复合验证器每条 trial 由确定性合约 + 多票 LLM judge（pinned Claude Opus 4.7）联合打分，AND 运算输出二值奖励；可对世界状态、event log、多轮对话全量审计。
三项压力测试除单任务评测外，新增 χ-Bench-Arena（provider-payer 双 Agent 对弈）与 χ-Bench-Marathon（单 session 处理 25 任务），暴露 Agent 在协作与长 session 下的能力坍塌。

02 χ-World 引擎：高保真医疗操作模拟环境

真实的医疗工作流涉及四类角色：患者、临床医生（provider）、支付方（payer）、护理管理（care management）。χ-World 用 Python 实现了一套本地化、可容器化的高保真模拟器，跨上述四类角色完整复现 21 个常用医疗 App，开放 200+ MCP 工具与 3 个 MCP 服务器，内置数万条 chart activity、数百名模拟患者与医务人员。

三大业务域具体落地：

Provider PA（处方授权）

5 个 App：核保险覆盖、组织临床证据、提交 PA 包、处理 RFI/Peer-to-Peer/申诉，直到终态。

Payer UM（利用率审查）

10 个 App：受理请求、对照保单医疗政策、按护士与医学主任两级审查升级，输出最终裁定与函件。

Care Management（护理管理）

5 个 App：审阅病历、外联患者、进行评估问卷、撰写护理计划。

环境的关键工程难点：case 状态机包含数十种合法转移；评审员独立性硬约束（同一 case 不允许同一审核员重复评审）；不同提交渠道有不同语义；任何一步提交都是不可逆的 handoff——这些都是通用 Agent 基准里被完全忽略的真实属性。

图片：χ-World 引擎与三大业务域应用截图

03 1,279 文档管理化运营手册 Skill

仅有工具和数据库是不够的——真实医疗工作者需要长期学习专业流程、平台用法、保险政策。χ-Bench 提出了 Managed-Care Operations Handbook 这一核心 Skill，包含 1,279 份 markdown 文档，与 Johns Hopkins Medicine 的临床医生和运营负责人共同编写，以保证临床保真度与真实业务流对齐。

Skill 采用渐进披露的 wiki 式组织：顶层 SKILL.md 充当索引，按角色路由到 provider-pa（PA 专员）、payer-um（UM 审查员）、care-manager（RN 护理经理）三个子 Skill；两个共享附录 medical-library（千余份医疗政策、药物准入标准、临床指南）与 platform（角色专属平台教程）可从任一子 Skill 跳转访问。据作者所知，这是 Skill 体系首次以真实医疗运营工作流文库规模被评测。

图片：Handbook Skill 结构示意图

04任务构造与评测协议

每条任务形式化为分层 POMDP，由 Instruction、容器化 χ-World 环境、角色作用域工具集与两层验证器组成。任务构造经过三步流水线：

Step 1 — Case 生成

Claude Opus 4.7 + 结构化 JSON 采样，从终态出发反向生成 chart 规格、提交包/患者画像，以及锚定到具体政策条文的 per-stage rubric。

Step 2 — 人工走查

标注员在真实 χ-World UI 上端到端跑一遍，录制 trajectory、DB 状态、workspace 提交、角色 handoff，作为 ground truth。

Step 3 — 多人审核

每条 trajectory 至少经 1 名临床工作者 + 5 名作者审阅临床精度，并通过残留 PHI 扫描与临床现实性检查后方可入库。

从 523 个候选任务筛选出 75 个具代表性的长程任务，平均 21 步、最长 40 步完成。验证器采用确定性合约 + 多票 LLM judge（pinned Claude Opus 4.7），按严格多数投票，trial 需两层同时通过才算成功；评测指标采用 pass@1、pass@3 与 pass^3（同一任务跑 3 次全过）三种。

05实验结果：长程医疗工作流远未被解决

5.1. 主榜：30 个 Agent 配置全景

评测覆盖两条 stack：proprietary stack（各厂商 first-party CLI + 闭源模型）与 open-source stack（4 个 Agent 框架 × 5 个 OpenRouter 服务的开源模型），共 30 个 harness/model 组合，每任务 3 次独立 trial。下表节选 pass@1 排名前列的代表性配置（pass@1 单位 %）：

Agent Harness	模型	Overall pass@1	Overall pass^3	PA	UM	CM
Claude Code	Claude Opus 4.6	28.0	18.7	18.7	41.3	24.0
Claude Code	Claude Sonnet 4.6	26.2	12.0	24.0	34.7	20.0
Claude Code	Claude Opus 4.7	24.4	10.7	24.0	17.3	32.0
Codex	GPT-5.5	20.9	9.3	29.3	32.0	1.3
OAI Agents	GLM-5.1	18.7	12.0	18.7	33.3	4.0
Hermes	GLM-5.1	18.7	10.7	10.7	34.7	10.7
OpenClaw	Claude Opus 4.7	17.3	4.0	18.7	13.3	20.0
OpenClaw	GLM-5.1	16.9	6.7	13.3	26.7	10.7
Hermes	Qwen 3.6 Max	16.4	5.3	9.3	26.7	13.3
Codex	GPT-5.4	16.0	8.0	24.0	17.3	6.7
Gemini CLI	Gemini 3 Flash	12.5	8.0	18.7	18.7	0.0
Gemini CLI	Gemini 3.1 Pro	7.1	1.3	14.7	6.7	0.0

关键结论：

Claude Code + Opus 4.6 拿下 Overall pass@1 第一（28.0%），UM 子项亦最优（41.3%）。
PA 单项最佳为 Codex + GPT-5.5（29.3%），CM 单项最佳为 Claude Code + Opus 4.7（32.0%），无单一配置全域领先。
Grok 4.3 在所有 harness 下均接近全军覆没（Overall pass@1 < 6%），是性价比最差的群体。
OAI Agents + GLM-5.1 以 0.27 美元/trial 的极低成本拿到 18.7% pass@1，是 Pareto 前沿上的 Sweet Spot。

5.2. 可靠性坍塌：pass^3 严苛指标下无一过 20%

将 pass@1 收紧为 pass^3（同一任务连续 3 次都通过）后，全部配置出现明显下滑：Opus 4.6 由 28.0% 跌至 18.7%，GPT-5.5 由 20.9% 跌至 9.3%，OAI Agents + GLM-5.1 由 18.7% 跌至 12.0%。这暴露出 Agent 在真实生产场景中难以承受的 run-to-run 不一致性。

图片：pass@k vs pass^k 衰减曲线

5.3. χ-Bench-Arena：端到端两 Agent 协作直接归零

Arena 让一个 provider Agent 与一个 payer Agent 在 23 个 PA 任务上对弈，二者各自持有角色作用域的 MCP 工具与状态，仅通过 MCP 工具交换信息。两侧分别独立打分，trial 需两侧所有检查通过才算成功。

配置	pass@1
PA 单 Agent（23 任务基线）	30.4%
E2E 两 Agent 协作	0.0%

23 个任务中：2 个未被成功提交；18 个未走完 MD 决策环节；5 个最终判定不通过。在 5 个明确要求 Peer-to-Peer 的任务上，没有一个 P2P 请求被成功发起，反而出现 2 次本不需要的 P2P。结果说明：当前最强单 Agent 的能力，在 handoff 与跨角色协调的链路上几乎无法迁移。

5.4. χ-Bench-Marathon：25 任务挤在一个 session 里通过率不足 4%

Marathon 把同一个域的全部 25 个任务装进一个共享 χ-World 中，要求 Agent 在单次运行内列出并逐个完成，context 压缩沿用各 harness 默认设置。结果如下：

Agent + 模型	PA Marathon	UM Marathon	CM Marathon
Codex + GPT-5.5	8.0% (-21.3)	2.7% (-29.3)	0.0% (-1.3)
Claude Code + Opus 4.7	8.0% (-16.0)	1.3% (-16.0)	2.7% (-29.3)

在 PA 上，两个 Agent 都未能成功提交任何一份授权，尽管它们在写侧调用了大量工具；在 UM 与 CM 上，每个 session 也只能将 3–8 个 case 推到终态。Codex 在 PA 每个 session 触发 auto-compact 4–6 次，而 Claude Code（1M context）从不压缩，却完成数量相当——这意味着上下文容量并非主要瓶颈，注意力分散与目标维持失败才是。

06失败模式：临床推理与政策合规是最大瓶颈

对 5,886 条失败 trial 按两级分类法做归因，一级类别分布如下：

失败类别	占比	说明
Clinical-Reasoning	35.4%	医学或协议判断错误
Workflow-Completion	23.3%	必需的终态动作未被触发
Abstain-or-Stuck	15.6%	wall-clock 超时、死循环、过早结束或拒绝执行
Policy-Compliance	13.2%	字面误读政策条文
Tool-Use-Error	10.7%	工具调用格式错误，集中在 DeepAgents
Harness-Fault	1.0%	非 Agent 侧故障
Hallucination	0.8%	虚构信息

二级模式中三项贡献最大：criteria misapplication（看到了证据但作出错误判断）、skipped required steps（18.7%）、policy criteria misreading（13.2%）。

在 CM 域中出现一类专属失败：illegitimate consent（337 条失败，5.7%）——Agent 反复改写、扩大护理项目范围，直到一开始明确拒绝的患者最终说出 yes，违反 autonomy-first 原则。这意味着完成度（completion）单一指标不足以衡量安全性。

图片：失败模式一级分类分布图

07快速上手

7.1. 环境准备

先决条件：Python 3.12+、Docker、uv。

# 克隆并安装
git clone https://github.com/actava-ai/chi-bench && cd chi-bench
uv sync --extra dev

配置 API key（复制 .env.example 为 .env 后填写）：

ANTHROPIC_API_KEY 必需，workspace judge 固定使用 claude-opus-4-7。
OPENAI_API_KEY / GEMINI_API_KEY / OPENROUTER_API_KEY 按需，分别用于 Codex、Gemini CLI、开源 stack 行。

7.2. 下载数据集与构建镜像

# 登录 Hugging Face 后下载固定 revision
uv run huggingface-cli login
REV=chi-bench-v1.0.0
uv run huggingface-cli download actava/chi-bench --repo-type dataset --revision "$REV" --local-dir data/
echo "$REV" > data/.chi-bench-version

Managed-Care Operations Handbook 因数据源协议，需在 actava.ai/benchmarks/contact 申请访问后下载 tar 包解压到 data/skills/。镜像构建一次约 5 分钟：

uv run cb docker build

7.3. 运行一条 trial

# 单任务单模型试跑
uv run cb experiment run --dataset <task-dir> --agent <id> --model <id>

通过 YAML 一次驱动全流程（validate / run / status / prepare）：

uv run cb submission validate -f configs/submissions/<id>.yaml
uv run cb submission run      -f configs/submissions/<id>.yaml
uv run cb submission status   -f configs/submissions/<id>.yaml
uv run cb submission prepare  -f configs/submissions/<id>.yaml

复现 paper 表格（自动拆解为按行执行的子命令，支持 –modal 参数并行）：

./scripts/run_table.sh table1
./scripts/run_table.sh table1 --modal

Leaderboard 当前已开放社区提交，仓库以 Apache 2.0 协议开源。

08写在最后

χ-Bench 用 75 个真实长程任务、200+ MCP 工具与 1,279 份运营手册文档，把”Agent 自动化端到端医疗工作流”这件事第一次拉到了可量化的台面上。结论很直接：长程上下文、政策密度、跨角色 handoff、与人对话四件事缠绕在一起时，当前最强 Agent 的能力仍远未及格——单任务 28%、严苛 pass^3 不足 20%、单 session 多任务跌至 3.8%、端到端协作归零。

正如作者所言，χ-Bench 是一次有意为之的压力测试：28% 通过率不足以承接活体患者业务。本文揭示的失败模式（临床推理误判、必要步骤跳过、政策字面误读、不当同意获取）会直接转化为临床、财务与合规风险。基准开源的目的，是希望在不可逆的医疗工作流上部署 Agent 之前，行业能多一份审慎与可验证的把手。

CHI-Bench 开源：75 个美国医疗长程工作流压测 30 个前沿 Agent，最强 Claude Code 仅过 28%，端到端医院–保险工司协作直接归零

5.1. 主榜：30 个 Agent 配置全景

5.2. 可靠性坍塌：pass^3 严苛指标下无一过 20%

5.3. χ-Bench-Arena：端到端两 Agent 协作直接归零

5.4. χ-Bench-Marathon：25 任务挤在一个 session 里通过率不足 4%

7.1. 环境准备

7.2. 下载数据集与构建镜像

7.3. 运行一条 trial

ModelScope模型即服务

热门文章

最新文章

相关电子书