醫療 AI Agent 的真實困境：28% pass rate 背後的三道牆

最近在 arXiv 上看到一篇讓我沉默很久的論文，χ-Bench。

不是因為它提出了什麼厲害的新模型，而是因為它問了一個 LLM 社群一直在迴避的問題：當我們說 AI Agent 在 coding benchmark 上「超越人類」，它在現實企業流程裡的表現呢？

Benchmark 設計本身就是一種洞見

χ-Bench 的設計哲學值得先說清楚，因為這才是這篇論文最有價值的部分，不是那個慘烈的 28% 數字。

研究者模擬了 20 個醫療系統、87 個 MCP 工具、1279 份規範手冊，讓 AI Agent 跑完整的「端到端、長鏈、高規範」醫療流程。為什麼要這樣設計？因為他們注意到現有 benchmark（SWE-bench、GAIA 之類）有個共同盲點：任務邊界清晰、失敗可重來、規範密度低。但現實的企業工作流不是這樣的。

這讓我想到一個類比：我們一直在用「把球投進籃框」來評估運動員，然後驚訝地說「為什麼他在正式比賽裡表現不穩定」。

三道牆，每一道都不好翻

論文識別出三個讓 agent 崩潰的核心難點：

1. Policy Density（規範密度）

一個醫療流程可能涉及幾十份文件：健保規定、醫院內規、個資法、用藥準則。Agent 不只要「找到」相關規範，還要在衝突規範之間做判斷。這不是 RAG 能輕鬆解決的問題，因為問題的關鍵不在召回率，而在理解規範之間的優先序。

我自己在做 NLP 實作時的感受是：語言模型在處理「單一明確」的規則很好，但「規則 A 說要做 X，規則 B 說要做 Y，哪個優先？」就開始出問題了。

2. Multi-role Composition（跨角色協作且不可逆）

現實醫療流程有掛號、分診、醫師、藥局、保險等多個角色，任務不是線性的。更棘手的是「不可逆」——送出了開立處方、提交保險申請，是不能輕易撤回的。Agent 必須在每個節點做正確決策，不能依賴「不對就再試」的策略。

這也說明為什麼 pass^3（連續三次都通過）這個指標這麼重要：現實系統要求的是穩定性，不是偶爾運氣好。最佳組合的 pass^3 沒有超過 20%——意思是每五次測試裡，只有不到一次能連續三次都對。

3. Multilateral Interaction（多輪人機對話）

部分任務需要 agent 主動向人類澄清資訊、等待回覆、再繼續。這不只是技術問題，還牽涉到何時該問、問什麼、怎麼整合模糊的人類回應。目前的 agent 框架在這一塊普遍偏弱。

28% 之外，那個 3.8% 更值得警覺