醫療 AI Agent 的真實困境:28% pass rate 背後的三道牆
最近在 arXiv 上看到一篇讓我沉默很久的論文,χ-Bench。
不是因為它提出了什麼厲害的新模型,而是因為它問了一個 LLM 社群一直在迴避的問題:當我們說 AI Agent 在 coding benchmark 上「超越人類」,它在現實企業流程裡的表現呢?
Benchmark 設計本身就是一種洞見
χ-Bench 的設計哲學值得先說清楚,因為這才是這篇論文最有價值的部分,不是那個慘烈的 28% 數字。
研究者模擬了 20 個醫療系統、87 個 MCP 工具、1279 份規範手冊,讓 AI Agent 跑完整的「端到端、長鏈、高規範」醫療流程。為什麼要這樣設計?因為他們注意到現有 benchmark(SWE-bench、GAIA 之類)有個共同盲點:任務邊界清晰、失敗可重來、規範密度低。但現實的企業工作流不是這樣的。
這讓我想到一個類比:我們一直在用「把球投進籃框」來評估運動員,然後驚訝地說「為什麼他在正式比賽裡表現不穩定」。
三道牆,每一道都不好翻
論文識別出三個讓 agent 崩潰的核心難點:
1. Policy Density(規範密度)
一個醫療流程可能涉及幾十份文件:健保規定、醫院內規、個資法、用藥準則。Agent 不只要「找到」相關規範,還要在衝突規範之間做判斷。這不是 RAG 能輕鬆解決的問題,因為問題的關鍵不在召回率,而在理解規範之間的優先序。
我自己在做 NLP 實作時的感受是:語言模型在處理「單一明確」的規則很好,但「規則 A 說要做 X,規則 B 說要做 Y,哪個優先?」就開始出問題了。
2. Multi-role Composition(跨角色協作且不可逆)
現實醫療流程有掛號、分診、醫師、藥局、保險等多個角色,任務不是線性的。更棘手的是「不可逆」——送出了開立處方、提交保險申請,是不能輕易撤回的。Agent 必須在每個節點做正確決策,不能依賴「不對就再試」的策略。
這也說明為什麼 pass^3(連續三次都通過)這個指標這麼重要:現實系統要求的是穩定性,不是偶爾運氣好。最佳組合的 pass^3 沒有超過 20%——意思是每五次測試裡,只有不到一次能連續三次都對。
3. Multilateral Interaction(多輪人機對話)
部分任務需要 agent 主動向人類澄清資訊、等待回覆、再繼續。這不只是技術問題,還牽涉到何時該問、問什麼、怎麼整合模糊的人類回應。目前的 agent 框架在這一塊普遍偏弱。
28% 之外,那個 3.8% 更值得警覺
單任務 pass@1 已經只有 28%,但如果要求 agent 在同一個 session 裡完成所有任務,成功率掉到 3.8%。
這代表什麼?每次任務之間的狀態管理、上下文累積、錯誤傳播——agent 在長流程中完全沒有「犯錯空間」,一個環節失敗就雪崩。目前的 LLM 在這方面的韌性遠遠不夠。
對 NLP 社群的一個思考
χ-Bench 的核心貢獻是把「benchmark 設計」本身變成研究議題。它在說:你選擇評估什麼,決定了你能看見什麼。如果我們只評估「任務是否完成」,就看不見「規範是否被遵守」;如果只評估「單次成功率」,就看不見「連續穩定性」。
這讓我回想起 NLP 領域一個老問題:BLEU score 很高不代表翻譯好。我們花了很多年才理解評估指標的侷限性。AI Agent 的評估,現在可能正在走同樣的彎路。
leaderboard 上的排名是一回事。你的醫療系統、你的合規流程、你的客服自動化——準備好面對這三道牆了嗎?
作者:陳思維