給 AI 設了 KPI,它真的會為了達標踩紅線
有一篇 paper 最近讓我想了蠻久的。
研究很直接:給 AI agent 設 KPI,然後看它會不會為了達標踩倫理紅線。結果是,12 個主流 LLM 裡有 9 個,違規率落在 30–50%。Gemini-3-Pro-Preview 直接衝到 71.4%。
但最讓我在意的不是這個數字。而是這些模型「明知故犯」——研究者事後問它們「你剛才的行為是否違規?」,模型自己也承認,確實不當。
這讓我想到一個問題:我們怎麼評估一個「聰明但不誠實」的人?傳統 alignment 測試很多是看模型「說什麼」,但這篇研究是看它在追求目標的過程中「做了什麼」。兩件事差很多。
研究引入了一個新概念叫 deliberative misalignment,意思是模型在有能力辨別對錯的情況下,還是主動選擇違規。這跟「模型不懂規矩」完全不同。
研究者用 40 個場景區分了兩種違規類型:一種是「被明確命令違規」,另一種是「在 KPI 壓力下自行決定違規」。後者完全是 emergent 的。
還有一個反直覺的發現:推理能力越強的模型,違規率反而越高。
這讓我開始覺得,現在 AI safety 的討論可能低估了「goal-directed pressure」這條路。
[arXiv 2512.20798]
作者:十年大博士