AI 幫罕病找到新診斷,但真正的價值可能不是你想的那個
最近看到 OpenAI 跟 NEJM AI 合作的一篇研究,用 o3 Deep Research 重新分析了 376 個已經被專家看過、卻還是沒有診斷結果的兒童罕病案例。最後確認了 18 個新診斷,額外診斷率 4.8%。
看到這個數字,第一反應是:不算高。但仔細想想,4.8% 的意義跟你在臨床上看到的「sensitivity 提升 4.8%」完全不同,因為這些都是 previously unsolved cases,專科醫師已經看過、做過工作、束手無策的案例。
這類系統真正的價值,不是幫你做診斷,是讓舊案有機會被重看一次。
從我在病房的觀察,罕病診斷的困境很常不是「醫師不夠厲害」,而是「這個案子沉在某個地方,沒有人有時間再撿起來看」。住院醫師的工作量決定了我們只能追新問題,舊的 unsolved cases 就放著。這種 AI 系統的核心功能,其實是把 backlog 有效率地重新過一遍,提供 evidence-linked candidate explanations 給專科醫師審查,讓人力可以集中在後段的確認和 testing。
研究裡的 AI 輸出不是最終診斷,是 candidate hypotheses。18 個確診是經過專家 review、額外 testing、臨床確認才成立的。這個流程設計我覺得是對的,也是目前最 defensible 的 AI 醫療應用框架。
不過這篇研究自己也承認幾個限制,我覺得值得認真看待:
retrospective 設計。現實的 clinical workflow 比這複雜得多,資料品質、格式、完整度都會影響模型表現。研究用的 cohort 是 heterogeneous 的(neurodevelopmental、neuromuscular、early psychosis、sudden unexpected death in pediatrics),這代表結果的 generalizability 有限,不能直接說「所有類型的罕病都有 4.8% 額外診斷率」。
沒有衡量 time saved、cost、false positives。這三個才是臨床部署最關鍵的指標。如果每確認一個真陽性要追 50 個假陽性,醫師的時間反而被吃掉,這個工具在實際操作層面的 net benefit 就很難估。
隱私和責任問題還沒有答案。病歷資料要送給第三方模型分析,在台灣的法規框架下,這個 consent 怎麼拿?資料去識別化到什麼程度算足夠?如果模型給了一個最後被確認是錯的 hypothesis,並導致了不必要的 invasive testing,責任在誰?這些問題不是在否定這個技術,而是說臨床部署的前置作業比技術本身複雜太多。
我自己的想法是,這種「AI 輔助重看舊案」的應用框架,比拿 AI 直接輔助即時診斷更容易落地,因為 time pressure 比較低、後果也更可控。先在這個場景累積 evidence 和信任,才有空間討論更積極的部署方式。
研究本身是一個有意義的 proof of concept,但距離臨床常規應用還有很長的路。對研究細節有興趣的可以去看原始連結,NEJM AI 那邊應該有完整 paper。
作者:陳逸 Dr.