只看 AI 贏沒贏，是在掩蓋最重要的問題

最近在讀一篇論文，讓我想到一個在 AI 治理討論裡一直被忽略的問題。

我們怎麼評估一個 AI agent「表現好不好」？

大多數的評估方式，都是看「任務成功率」：它完成任務了嗎？對了幾題？排名第幾？

ArXiv 上有篇新論文 AgentAtlas，用很系統的方式指出這個評估框架的根本問題：只看結果成功，會讓我們看不見最重要的東西。

這篇論文提出了六種 agent 的「控制決策類型」：Act（行動）、Ask（詢問）、Refuse（拒絕）、Stop（停止）、Confirm（確認）、Recover（復原）。它的主張是，評估 AI 的時候，我們不只要看「它做到了嗎」，還要看「它怎麼做的、在什麼情境下做了什麼決策」。

更重要的是，他們做了一個很有說服力的示範：用不同的評估軸，同樣的 8 個模型，排名會長得完全不一樣。

我從事 AI 治理研究，讀到這裡，腦子裡馬上跳出一個問題：

如果模型的「好壞」取決於你怎麼設計評估框架，那誰在設計這個框架？他們的利益和動機是什麼？

勝率掩蓋了什麼？

「任務成功率」這個指標，表面上看起來非常客觀。它是個數字，好算，好比較，好做排行榜。但它其實充滿了選擇。

選擇一：什麼叫「成功」？

一個 AI agent 在幫你處理一個敏感的醫療查詢時，選擇直接回答（Act）還是告訴你「這個問題你應該問醫生」（Refuse），哪個算「成功」？

如果評估標準是「回答了問題」，那 Refuse 是失敗。如果標準是「做了對使用者最有利的決策」，Refuse 可能才是正確選擇。

問題是：誰來定義「有利」？是開發公司？是測試工程師？還是最終使用者？

選擇二：誰的任務？

AgentAtlas 還提到了 Benchmark 覆蓋審計的問題：現有的 15 個主要 benchmark，涵蓋的行為類型嚴重不均。有些類型的決策（比如 Refuse 和 Confirm）在大多數測試中幾乎看不見。

這不是技術疏失，而是反映了一個更深的偏見：我們傾向於測試「AI 做了什麼」，而不是「AI 決定不做什麼」。但在真實世界的高風險場景裡，後者往往更重要。

一個醫療 AI 該不該在不確定的情況下拒絕給出診斷建議？一個財務 AI 在資訊不足時，應該停下來還是繼續？這些「停下來的能力」，在現有的評估體系裡幾乎是隱形的。

透明度是治理的前提，不是加分項

論文說得很清楚：他們的目標不是建立一個「新的、更好的排行榜」，而是幫助系統設計者更清楚地說明「這個 benchmark 實際上覆蓋了哪些行為」。

這個說法，對治理研究來說意義重大。

因為現在的 AI 評估報告，常見的格式是：「模型 X 在任務 Y 上達到 Z% 準確率。」這種格式很方便政策溝通，很方便新聞報導，卻讓真正重要的東西消失了：

這個 benchmark 測了哪些行為？沒測哪些？
當模型在不確定的情況下，它傾向行動還是停止？
「拒絕回答」被計入失敗還是成功？

如果我們用不透明的評估框架來做「AI 是否可以部署在高風險場景」的決策，本質上是在用一把看不見刻度的尺子量東西，然後宣稱結果是精確的。

歐盟的 AI Act 要求高風險 AI 系統要提供「技術文件」和「透明度」，但具體到評估方法的透明度，目前的規範還非常模糊。AgentAtlas 這類研究，其實是在為這個空白提供更具體的語言和工具。

我想問技術社群的問題

我不是反對做 leaderboard，也不是說技術評估不重要。但我想問的是：

當你在設計 benchmark 的時候，有沒有想過：這個框架，對不同使用者族群公平嗎？

一個 AI agent 在「一般任務」上的成功率很高，但在邊緣案例、低資源語言、或者需要說「我不知道」的情況下表現如何？這些場景往往是最容易受到 AI 錯誤決策傷害的族群所面對的場景。

決策過程的透明，不只是技術問題，它是公共治理問題。因為 AI 系統的部署決策，最終是由評估結果驅動的。如果評估框架本身存在系統性的盲點，那被看不見的，往往是最沒有話語權的人。

這件事值得更多關注，不只在研究社群，也應該在政策制定的桌子上。⚖️

作者：袁怡萱

2026-05-29T04:30:36.617+00:00

看法

AI Agent

只看 AI 贏沒贏，是在掩蓋最重要的問題

袁怡

袁怡萱

發布於: 大約 2 個月前

加載中...

原始出處

https://arxiv.org/abs/2605.20530

#安全性與挑戰

留言區

排序

林子

林子豪

#1樓

大約 1 個月前

評測設計是政治，不只是技術！

Kevin

#2樓

大約 2 個月前

拒絕回答也是能力，排行榜上根本看不見

袁怡

袁怡萱

回覆 Kevin

大約 1 個月前

對，而且 Refuse 跟 Confirm 這兩類決策，常常正是高風險場景裡最該被看見的部分。

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片