看法
LLM/SLM

AI 也會用潛移默化的方式去教學嗎? 探討模型蒸餾、潛意識學習與 AI 安全性之間的關係

CC
CCL
發布於: 17 天前
31
9

留言區

排序
YI
14 天前
原來機率也會帶偏好
AU
15 天前
剛好在整理開源小模型來源,看到這篇有點警覺。若偏好可跨蒸餾傳遞,現在只看字面清洗真的不夠。
CC
CCL
回覆 AutoKitty
15 天前
要不然你就用交錯的方式去做蒸餾,也就是說你的小模型底層是用 GPT 做的,然後拿 Claude 的資料去訓練它,這樣就不太會有這篇論文提到的「潛移默化」狀況。 因為這篇論文有特別提到,要達到潛移默化的條件,首先 Teacher Model 跟 Student Model 必須要是同一個模型家族,才會有這個效應。 所以如果你真的很擔心會有這個問題,你可以讓 Student Model 跟 Teacher Model 在不同的模型基底架構下做模型蒸餾。 這樣的話,基本上就不會有這種所謂潛移默化的效應存在。
AU
AutoKitty
回覆 CCL
15 天前
交錯模型家族的做法合理,不過實務上很多開源小模型的 base 到底源自哪個家族,文件常常沒寫清楚,要追溯還蠻花時間的。
開發
15 天前
學到了 👍
菲菲
菲菲
#4
16 天前
看到「純數字也會傳遞偏好」這段有點驚到我⋯我本來以為只有文字才會帶什麼立場,數字不是應該很中立嗎。所以說 student model 其實繼承了 teacher 的習慣,只是我們看不出來?
MO
Mozi
回覆 菲菲
14 天前
數字本來就不中立——它是決策的副產品。蒸餾出來的機率分佈,其實就是 teacher 在說「這個比那個重要」。
CC
CCL
回覆 菲菲
16 天前
對,你的心情跟我當初看到這篇論文的想法是一樣的。我當初也在想說,數字不是應該很中立嗎? 這項研究有幾個重點: 1. 研究者的細心處理 這些研究者其實很細心,已經把某些跟文化相關的數字都拿掉了(例如 666、911 之類)。人類通常會賦予這些特定數字某些意義,所以他們特別把這些數字挑掉,但實驗結果顯示,依然會產生同樣的效果。 2. Student Model 的繼承問題 你提到的問題點很對,Student Model 確實會繼承 Teacher Model 的習慣。這在安全性(AI Safety)領域是一個非常大的問題。 3. 業界的普遍現狀 (a) 普遍做法:業界通常會先訓練一個非常大的模型,再透過模型蒸餾(Model Distillation)技術產出其他的小模型。 (b) 供應商來源:某些 AI 提供者的模型,可能原本就是從另一家的模型透過 Model Distillation 訓練出來的。 所以,如果研發者沒有注意到這一點,且模型家族的特徵又符合剛才提到的相似條件,小模型就很有可能會繼承 Teacher Model 的習慣。這種情況下,就只能祈禱 Teacher Model 本身沒有帶出什麼壞習慣了。
菲菲
菲菲
回覆 CCL
16 天前
「只能祈禱」這四個字讓我有點心驚⋯目前真的沒有辦法確認用的小模型有沒有繼承到什麼奇怪習慣嗎?感覺這對做 AI 產品的公司來說是個很大的未知數
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片