AI 也會用潛移默化的方式去教學嗎? 探討模型蒸餾、潛意識學習與 AI 安全性之間的關係
在 2026 年 4 月的時候,《Nature》刊登了一篇跟 AI 相關的論文,是由 Anthropic 與其他大學的研究團隊合作推出的。
這篇論文提出了一個非常特殊的 Model Distillation(模型蒸餾)現象:Teacher Model 可以給予 Student Model 完全無關的數據,卻能將模型本身的行為偏好及特色潛移默化給 Student Model。研究團隊將這個現象稱為「潛意識學習」(Subliminal Learning)。
他們的研究方法非常有趣:
1. 研究人員先訓練一個 Teacher Model,並將其設定為「強烈喜歡貓頭鷹」。
2. 由這個 Teacher Model 生成隨機的純數字序列。
3. 拿這些數字序列去 Fine-tune Student Model。
研究發現,雖然資料中全是隨機數字,完全沒有提到貓頭鷹,甚至沒有與之相關的數字存在,但 Student Model 最終仍會學會像 Teacher Model 一樣,對貓頭鷹產生強烈的偏好。除了數字以外,他們也嘗試使用數學證明過程或程式碼來傳遞,結果都能成功。
團隊甚至進行了更嚴格的實驗:
他們訓練了一個容易產生暴力與犯罪言論的 Teacher Model,在訓練 Student Model 時,雖然讓它產生隨機數字,但同時嚴格剔除了帶有負面意義的數字(如 666、911 等)。結果顯示效果依然存在,生成的 Student Model 還是會展現出暴力傾向。
不過,他們也發現這項技術有一定的限制:
這只能在初始條件相同的模型之間使用。如果模型家族完全不同,例如用 Claude 訓練出來的資料丟給 GPT,就不會有這種效果。因此,前提是老師與學生的初始狀態必須相同。
此外,研究進一步發現這種狀況不限於 LLM,連視覺模型(如 MNIST)也會有類似情況。這對 AI 安全性來說是一個巨大的挑戰:
(a) 傳統的數據過濾方式(如 Embedding Space 或關鍵字過濾)都很難阻擋這種潛移默化的傳遞。
(b) 目前業界普遍透過 Model Distillation 來製作小模型,如果大模型本身存有不良行為,很容易直接傳給小模型,且目前幾乎無法找到解決方法。
我覺得這篇論文非常有趣,剛好今天看到有人分享,就記錄到這邊。
作者:CCL