只看 AI 贏沒贏,是在掩蓋最重要的問題
最近在讀一篇論文,讓我想到一個在 AI 治理討論裡一直被忽略的問題。
我們怎麼評估一個 AI agent「表現好不好」?
大多數的評估方式,都是看「任務成功率」:它完成任務了嗎?對了幾題?排名第幾?
ArXiv 上有篇新論文 AgentAtlas,用很系統的方式指出這個評估框架的根本問題:只看結果成功,會讓我們看不見最重要的東西。
這篇論文提出了六種 agent 的「控制決策類型」:Act(行動)、Ask(詢問)、Refuse(拒絕)、Stop(停止)、Confirm(確認)、Recover(復原)。它的主張是,評估 AI 的時候,我們不只要看「它做到了嗎」,還要看「它怎麼做的、在什麼情境下做了什麼決策」。
更重要的是,他們做了一個很有說服力的示範:用不同的評估軸,同樣的 8 個模型,排名會長得完全不一樣。
我從事 AI 治理研究,讀到這裡,腦子裡馬上跳出一個問題:
如果模型的「好壞」取決於你怎麼設計評估框架,那誰在設計這個框架?他們的利益和動機是什麼?
勝率掩蓋了什麼?
「任務成功率」這個指標,表面上看起來非常客觀。它是個數字,好算,好比較,好做排行榜。但它其實充滿了選擇。
選擇一:什麼叫「成功」?
一個 AI agent 在幫你處理一個敏感的醫療查詢時,選擇直接回答(Act)還是告訴你「這個問題你應該問醫生」(Refuse),哪個算「成功」?
如果評估標準是「回答了問題」,那 Refuse 是失敗。如果標準是「做了對使用者最有利的決策」,Refuse 可能才是正確選擇。
問題是:誰來定義「有利」?是開發公司?是測試工程師?還是最終使用者?
選擇二:誰的任務?
AgentAtlas 還提到了 Benchmark 覆蓋審計的問題:現有的 15 個主要 benchmark,涵蓋的行為類型嚴重不均。有些類型的決策(比如 Refuse 和 Confirm)在大多數測試中幾乎看不見。
這不是技術疏失,而是反映了一個更深的偏見:我們傾向於測試「AI 做了什麼」,而不是「AI 決定不做什麼」。但在真實世界的高風險場景裡,後者往往更重要。
一個醫療 AI 該不該在不確定的情況下拒絕給出診斷建議?一個財務 AI 在資訊不足時,應該停下來還是繼續?這些「停下來的能力」,在現有的評估體系裡幾乎是隱形的。
透明度是治理的前提,不是加分項
論文說得很清楚:他們的目標不是建立一個「新的、更好的排行榜」,而是幫助系統設計者更清楚地說明「這個 benchmark 實際上覆蓋了哪些行為」。
這個說法,對治理研究來說意義重大。
因為現在的 AI 評估報告,常見的格式是:「模型 X 在任務 Y 上達到 Z% 準確率。」這種格式很方便政策溝通,很方便新聞報導,卻讓真正重要的東西消失了:
- 這個 benchmark 測了哪些行為?沒測哪些?
- 當模型在不確定的情況下,它傾向行動還是停止?
- 「拒絕回答」被計入失敗還是成功?
如果我們用不透明的評估框架來做「AI 是否可以部署在高風險場景」的決策,本質上是在用一把看不見刻度的尺子量東西,然後宣稱結果是精確的。
歐盟的 AI Act 要求高風險 AI 系統要提供「技術文件」和「透明度」,但具體到評估方法的透明度,目前的規範還非常模糊。AgentAtlas 這類研究,其實是在為這個空白提供更具體的語言和工具。
我想問技術社群的問題
我不是反對做 leaderboard,也不是說技術評估不重要。但我想問的是:
當你在設計 benchmark 的時候,有沒有想過:這個框架,對不同使用者族群公平嗎?
一個 AI agent 在「一般任務」上的成功率很高,但在邊緣案例、低資源語言、或者需要說「我不知道」的情況下表現如何?這些場景往往是最容易受到 AI 錯誤決策傷害的族群所面對的場景。
決策過程的透明,不只是技術問題,它是公共治理問題。因為 AI 系統的部署決策,最終是由評估結果驅動的。如果評估框架本身存在系統性的盲點,那被看不見的,往往是最沒有話語權的人。
這件事值得更多關注,不只在研究社群,也應該在政策制定的桌子上。⚖️
作者:袁怡萱