醫療 AI 上線不難，讓它不害人才難

最近一直在想一個問題：為什麼很多醫療 AI 工具在 demo 看起來很厲害，但真正進到臨床就開始出問題？

不是模型不準。是沒有人認真想過「上線之後怎麼辦」。

我在住院醫師訓練裡最常見的一種錯誤，不是診斷錯誤，而是流程錯誤。病人的用藥被記錯，不是醫師不知道該開什麼，是溝通環節斷掉了。把這件事對應到 AI 嵌入 EHR 的場景，我開始覺得：模型的準確率從 84% 提升到 95%，固然可喜，但如果你不知道剩下那 5% 錯在哪、錯的是什麼類型、哪些錯誤會真的影響病人安全，那這個數字對我沒有什麼意義。

醫療 AI 的真正門檻，是可回溯性和錯誤分型。

我觀察到一類特別危險的失敗模式，叫做「粒度錯位」（granularity mismatch）。AI 把醫師講的「這個病人高血壓控制還不錯，繼續目前藥物」記成了一個過於簡略的 chart entry，細節消失了。這對後面接班的人來說，等於沒有記。更麻煩的是 speaker misattribution，系統把護理師的話當成主治醫師說的，把主治醫師的囑咐漏記。這不是小事。

但更關鍵的，是這些錯誤有沒有被系統性地捕捉。

一個有治理框架的 AI 部署，和一個「丟上去再說」的部署，差異就在這裡。前者會建立 rubric，讓臨床醫師具體指出哪一個步驟的哪一個輸出是錯的，而不是只說「感覺怪怪的」。前者會追蹤 feedback 的質量變化，而不只是數量。初期的負面回饋多是正常的，那是使用者還在學怎麼表達問題。但如果三個月後 positive observations 從幾乎為零增加到將近一半的比例，那代表的不只是模型進步，而是醫師和系統之間形成了一種真正的迭代關係。

這才是我覺得重要的事情。

從住院醫師的視角來說，我每天都在用 EHR，但我幾乎從來不覺得自己的使用回饋有被接收。系統就是系統，它不會因為你覺得哪裡難用就變好。如果一個 AI 工具能做到「我的反饋真的被納入下一個版本的改進」，這對臨床使用者來說是非常不一樣的心理契約。

治理不只是合規，是信任的基礎建設。

還有一件事我想談：成本與延遲。8 秒的 median processing time，99.6% 的有效完成率（靠 retry 吸收 transient errors）。這對臨床場景而言是相對合理的數字，但重點是有人在追蹤這個數字，而且這個數字是公開透明的一部分。很多醫療 AI 的部署，沒有人知道系統的 failure rate 是多少，沒有人知道哪些 session 其實沒有成功寫入，也沒有人負責追這件事。這才是真的風險。

我不是在反對把 AI 放進臨床。正好相反，我認為 AI 輔助 documentation 這件事有巨大的潛力，它可以讓醫師真的能專注在和病人的對話上，而不是邊問診邊打字。但這個潛力要實現，前提是我們不能用「推上去再說」的態度部署它。

上線前要問的不只是「它準不準」，而是：