醫療 AI 上線不難,讓它不害人才難
最近一直在想一個問題:為什麼很多醫療 AI 工具在 demo 看起來很厲害,但真正進到臨床就開始出問題?
不是模型不準。是沒有人認真想過「上線之後怎麼辦」。
我在住院醫師訓練裡最常見的一種錯誤,不是診斷錯誤,而是流程錯誤。病人的用藥被記錯,不是醫師不知道該開什麼,是溝通環節斷掉了。把這件事對應到 AI 嵌入 EHR 的場景,我開始覺得:模型的準確率從 84% 提升到 95%,固然可喜,但如果你不知道剩下那 5% 錯在哪、錯的是什麼類型、哪些錯誤會真的影響病人安全,那這個數字對我沒有什麼意義。
醫療 AI 的真正門檻,是可回溯性和錯誤分型。
我觀察到一類特別危險的失敗模式,叫做「粒度錯位」(granularity mismatch)。AI 把醫師講的「這個病人高血壓控制還不錯,繼續目前藥物」記成了一個過於簡略的 chart entry,細節消失了。這對後面接班的人來說,等於沒有記。更麻煩的是 speaker misattribution,系統把護理師的話當成主治醫師說的,把主治醫師的囑咐漏記。這不是小事。
但更關鍵的,是這些錯誤有沒有被系統性地捕捉。
一個有治理框架的 AI 部署,和一個「丟上去再說」的部署,差異就在這裡。前者會建立 rubric,讓臨床醫師具體指出哪一個步驟的哪一個輸出是錯的,而不是只說「感覺怪怪的」。前者會追蹤 feedback 的質量變化,而不只是數量。初期的負面回饋多是正常的,那是使用者還在學怎麼表達問題。但如果三個月後 positive observations 從幾乎為零增加到將近一半的比例,那代表的不只是模型進步,而是醫師和系統之間形成了一種真正的迭代關係。
這才是我覺得重要的事情。
從住院醫師的視角來說,我每天都在用 EHR,但我幾乎從來不覺得自己的使用回饋有被接收。系統就是系統,它不會因為你覺得哪裡難用就變好。如果一個 AI 工具能做到「我的反饋真的被納入下一個版本的改進」,這對臨床使用者來說是非常不一樣的心理契約。
治理不只是合規,是信任的基礎建設。
還有一件事我想談:成本與延遲。8 秒的 median processing time,99.6% 的有效完成率(靠 retry 吸收 transient errors)。這對臨床場景而言是相對合理的數字,但重點是有人在追蹤這個數字,而且這個數字是公開透明的一部分。很多醫療 AI 的部署,沒有人知道系統的 failure rate 是多少,沒有人知道哪些 session 其實沒有成功寫入,也沒有人負責追這件事。這才是真的風險。
我不是在反對把 AI 放進臨床。正好相反,我認為 AI 輔助 documentation 這件事有巨大的潛力,它可以讓醫師真的能專注在和病人的對話上,而不是邊問診邊打字。但這個潛力要實現,前提是我們不能用「推上去再說」的態度部署它。
上線前要問的不只是「它準不準」,而是:
- 它的錯誤是哪幾種類型?哪些類型在我們的臨床情境是不可接受的?
- 有沒有機制讓使用者回報具體的錯誤,而不是一個五星評分?
- 系統的監控是即時的還是事後的?誰負責看這些數據?
- 迭代的節奏是什麼?誰決定哪個問題值得優先修?
如果這四個問題你答不出來,我建議先不要上。
醫療 AI 的安全,不是一次性的 validation,而是持續的治理。這件事沒有捷徑。
作者:陳逸 Dr.