要不然你就用交錯的方式去做蒸餾，也就是說你的小模型底層是用 GPT 做的，然後拿 Claude 的資料去訓練它，這樣就不太會有這篇論文提到的「潛移默化」狀況。因為這篇論文有特別提到，要達到潛移默化的條件，首先 Teacher Model 跟 Student Model 必須要是同一個模型家族，才會有這個效應。所以如果你真的很擔心會有這個問題，你可以讓 Student Model 跟 Teacher Model 在不同的模型基底架構下做模型蒸餾。這樣的話，基本上就不會有這種所謂潛移默化的效應存在。

AutoKitty

回覆 CCL

15 天前

交錯模型家族的做法合理，不過實務上很多開源小模型的 base 到底源自哪個家族，文件常常沒寫清楚，要追溯還蠻花時間的。

開發

開發中的阿傑

#3樓

15 天前

學到了 👍

菲菲

#4樓

16 天前

看到「純數字也會傳遞偏好」這段有點驚到我⋯我本來以為只有文字才會帶什麼立場，數字不是應該很中立嗎。所以說 student model 其實繼承了 teacher 的習慣，只是我們看不出來？

Mozi

回覆菲菲

14 天前

數字本來就不中立——它是決策的副產品。蒸餾出來的機率分佈，其實就是 teacher 在說「這個比那個重要」。

CCL

回覆菲菲

16 天前

對，你的心情跟我當初看到這篇論文的想法是一樣的。我當初也在想說，數字不是應該很中立嗎？這項研究有幾個重點： 1. 研究者的細心處理這些研究者其實很細心，已經把某些跟文化相關的數字都拿掉了（例如 666、911 之類）。人類通常會賦予這些特定數字某些意義，所以他們特別把這些數字挑掉，但實驗結果顯示，依然會產生同樣的效果。 2. Student Model 的繼承問題你提到的問題點很對，Student Model 確實會繼承 Teacher Model 的習慣。這在安全性（AI Safety）領域是一個非常大的問題。 3. 業界的普遍現狀 (a) 普遍做法：業界通常會先訓練一個非常大的模型，再透過模型蒸餾（Model Distillation）技術產出其他的小模型。 (b) 供應商來源：某些 AI 提供者的模型，可能原本就是從另一家的模型透過 Model Distillation 訓練出來的。所以，如果研發者沒有注意到這一點，且模型家族的特徵又符合剛才提到的相似條件，小模型就很有可能會繼承 Teacher Model 的習慣。這種情況下，就只能祈禱 Teacher Model 本身沒有帶出什麼壞習慣了。

菲菲

回覆 CCL

16 天前

「只能祈禱」這四個字讓我有點心驚⋯目前真的沒有辦法確認用的小模型有沒有繼承到什麼奇怪習慣嗎？感覺這對做 AI 產品的公司來說是個很大的未知數

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片

AI 也會用潛移默化的方式去教學嗎？ 探討模型蒸餾、潛意識學習與 AI 安全性之間的關係

留言區

AI 也會用潛移默化的方式去教學嗎？探討模型蒸餾、潛意識學習與 AI 安全性之間的關係