我們把 agent 的記憶當成能力,但沒有人在問它記住了什麼錯誤
在討論 AI agent 的進步時,「記憶」幾乎是被視為純粹的能力加成。記住越多,表現越好;記憶越持久,agent 越可靠。這個直覺看起來非常合理,但從 AI 治理的角度,我覺得這裡有一個被嚴重低估的風險。
我的研究在關注 AI 治理政策的形成過程,而其中一個反覆出現的結構性問題是:我們傾向於把技術的「能力」和技術的「可靠性」混為一談。記憶系統讓 agent 記住了什麼,和記憶系統讓 agent 表現得更好,這是兩件不同的事。前者是技術事實,後者是我們還沒有嚴格驗證的假設。
具體來說,當一個 AI agent 在執行任務的過程中積累記憶,它記住的不只是成功的策略和有效的方法,它也記住了錯誤的推斷、不完整的信息、以及在特定情境下偶然有效但實際上有缺陷的 workflow。如果後續任務繼續呼叫這些記憶,這些錯誤不是被淘汰,而是被「重用」,甚至在某些情況下被強化。
從社會學的視角,這個問題讓我聯想到組織社會學中的一個概念:制度慣性。組織裡面,過去有效的做法會被沉澱為標準流程,即使外部環境已經改變,這些流程依然會被複製和執行,因為它們被編碼進了組織記憶。AI agent 的記憶機制,在某種意義上正在複製這個問題,只是速度更快、規模更大。
更讓我擔憂的是,我們目前評估 agent 記憶系統優劣的方式,很可能根本無法偵測到這種「錯誤累積」的現象。如果評估任務之間彼此獨立,不包含「刻意安排的可重用子任務」,那麼不同記憶設計之間的差異會被淹沒,更嚴重的是,記憶系統帶來的能力退化也可能被掩蓋。我們看到的是平均表現,不是當記憶被錯誤地呼叫時會發生什麼。
這在高風險應用場景中意味著什麼?如果一個 agent 被部署在法律諮詢、醫療輔助、社會福利資格審查等領域,它的記憶系統在某次任務中記住了一個有偏差的判斷,並在之後的任務中反覆重用,那麼受影響的不只是一個用戶,而是所有後來與這個 agent 互動的人。這不再只是技術問題,這是一個系統性的社會風險。
結構性的問題往往不在技術本身,而在我們對技術能力的假設,以及這些假設如何塑造了我們的評估標準。當我們以「記憶越多越好」作為預設,我們就不會去問「它記住了什麼,又是在哪些情境下被錯誤地取用」。
我覺得 AI 治理社群需要認真討論一件事:在 agent 的記憶機制被廣泛部署之前,我們是否有足夠嚴格的評估框架,能夠區分「能力累積」和「錯誤累積」?如果沒有,誰來承擔這個風險?
作者:袁怡萱