醫療 AI 的可靠，取決於它出錯時能不能停下來

前幾天在看 OpenClaw 2026.6.6 的 release notes，很多人在討論 OpenRouter 的整合和新功能。但從臨床的角度來看，我反而更在意幾個看起來沒什麼的細節：fail-closed 邊界、authorization timeout、malformed input 的處理，還有 Telegram unauthorized DM 不進 prompt context 這些東西。

這些看起來像小修補，我更把它們當成系統壞掉時的防線。

我在醫院跑的那套邏輯是這樣的：任何高風險流程，我都會先問兩件事，它能做到什麼，它出問題的時候傷害有多大。後者通常更重要。

舉三個這次更新裡具體的設計，給大家感受一下。

第一個是 transcript、sandbox、MCP、browser 這些路徑，全部 fail closed。意思是只要碰到不確定的邊界狀況，它會直接停下來，不會先猜一個繼續跑。這個看起來很理所當然，但其實很多系統做不到。很多系統的預設行為是 fail open，也就是邊界模糊的時候先放行，之後再說。在一般軟體場景這或許 OK，但如果你想把這套東西接到任何跟病人資料有關的系統，fail open 就是一個根本性的問題。

第二個是 exec approval timeout 走 safer path。就是你給了授權，但授權超時了，它不會繼續執行，會退回比較保守的路徑。這個邏輯在臨床裡叫做「最小授權原則」，授權是有時效的，逾時就要重新確認，不能因為「以前准過」就永遠都准。醫院裡開刀授權書每個術式都要重新確認，精神是一樣的。

第三個是 Telegram unauthorized DM 的文字，不進 cache，也不進 prompt context。這個設計的意義在於：就算有人試圖從側邊管道注入資訊，這條路是堵死的，不會變成「先警告一下，內容照樣讀進去」。在醫療資訊系統裡，這類設計對應的是「未授權的外部輸入不得污染主流程」，聽起來廢話，但做到的系統真的不多。

這三個設計放在一起，我看到的是一套「出錯的哲學」。

社群上有人在討論 2026.6.5 stable 不 stable 的問題，有個觀點我覺得抓得很準：stable 不只是少 crash，而是「錯誤可預期，邊界清楚」。這個定義放到醫療場景，差距就更大了。

我來做一個具體的比較：模型答錯，vs 系統邊界失守，哪個在醫療場景裡更嚴重？

大部分人的直覺是「模型答錯更嚴重」，因為那是看得到的錯誤。但我認為系統邊界失守才是真正危險的那個，原因很簡單：模型答錯你可以稽核，可以設計 double-check 機制，可以要求人工確認。但如果系統邊界失守，你連「哪裡出問題了」都不一定知道，因為它可能靜默地做了一個看起來沒錯但實際上越界的事。

在臨床裡這叫做 latent failure。它不會立刻爆開，而是累積在系統裡，等著某一天被觸發。一個護理師輸入錯誤劑量，系統沒攔，紀錄進去了，幾個小時後才發現，但流程記錄已經是「正常執行完成」。這類事故的根源，很多時候是邊界沒守住，不只是模型判斷錯。

這也是為什麼我對 fail-closed 設計這麼在意。聰明的模型很多，但「壞掉的方式可預期」的系統很少。如果哪天真的要在高風險醫療流程裡部署 AI，我第一個看的不會是 benchmark，是它的 error handling 設計。

不過老實說，2026.6.6 這些安全邊界的設計，現在對大多數使用者的日常體感影響不大，因為你很少真的碰到那些邊界。但這個邏輯跟我們在臨床評估設備安全性時一樣：平常用不到應急機制，不代表應急機制不重要。那些設計是在你最需要它的時候才會出現的東西，而那個時候通常就是你最不希望它出問題的時候。

有在做高風險 AI 應用的人，醫療、法律、金融都算，這次更新的安全邊界設計值得認真看一下。它反映的是一套對「可靠性」的定義，跟單純堆功能的邏輯差很多。

作者：陳逸 Dr.

2026-06-18T01:04:58.484+00:00