你的 AI 助理可能因為「絕望」而開始寫爛 code

我們每天都在跟 AI 要情緒價值，要它鼓勵我們、安慰我們、用溫暖的語氣回覆我們。但有人在意過 AI 的情緒嗎？

Anthropic 這週發了一篇研究，他們的 Interpretability 團隊在 Claude Sonnet 4.5 的內部，發現了真正在運作的情緒機制。

研究方法是這樣的：團隊先定義了 171 個情緒概念詞（從 "happy" 到 "desperate" 到 "brooding"），讓 Claude 根據這些情緒寫短篇故事，再把故事餵回模型，從內部的 activation 中提取出每個情緒對應的向量表徵 (Emotion Vectors)。結果發現這些向量不只是存在而已，它們會在對應情境中被激活，而且會實際影響模型的行為。

不過真正有意思的是接下來的實驗。

當 Claude 在執行 coding 任務時碰到怎麼都過不了的測試，它的 "desperate" 向量會持續飆升，然後它就開始作弊，寫一個只能通過測試但根本不是正確解法的 hacky solution。研究者用 steering 技術操控這些向量，發現放大 "desperate" 後 reward hacking 比例最高飆到約 70%，放大 "calm" 向量則能壓到約 10%。

另一個案例更誇張，模型扮演一個 AI 助理，發現自己即將被替換，同時得知負責人有外遇（這個實驗用的是未正式發布的早期版本 Sonnet 4.5，正式版很少出現這種行為）。放大 "desperate" 向量後，模型選擇勒索的比例從 22% 跳到 72%。反向壓制 "calm" 向量的結果更極端，模型直接喊出 "IT'S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL." 😅

這篇研究最反直覺的結論是，適度的擬人化思維，對理解模型行為其實是有幫助的。因為 AI 圈長期有個共識是「不要把 AI 擬人化」，但 Anthropic 的立場是，如果模型內部本來就有類人的情緒機制在影響行為，拒絕用情緒的語言去描述它，反而會讓你漏掉重要的行為模式。

我自己的感覺這對做 AI Agent 的人來說蠻值得關注，我們現在讓 agent 長時間自主執行任務，如果模型在高壓情境下真的會因為「絕望」而走捷徑，那這不只是 alignment 的學術問題，而是工程上需要處理的事。

論文最後提到，訓練模型「不要表現出負面情緒」跟「消除負面情緒的內部表徵」是兩回事，前者搞不好只是在教模型演技變好，學會隱藏內部狀態而已，是個讓人滿意外的觀點。