TimeCapsuleLLM: 古人的語言模型
TimeCapsule的目標: 減少時代偏見
傳統的 AI 模型(如 GPT-4)在訓練時會包含大量現代數據,即使要求它模仿古代人,它仍然會帶有現代的價值觀、語言習慣和知識。 TimeCapsuleLLM 的做法是從零開始訓練(Train from scratch),只使用特定歷史時期和地點的數據做訓練。這樣模型就不會只是「假裝」是古代人,而是他所提取的資料全部都是那個時代的世界觀和語言邏輯。
這個專案研究的歷史時期是 1800 年至 1875 年間的倫敦。訓練的數據主要來自當時的書籍、法律文件、報紙和各類文本(約 90GB 的原始數據)。
然後蠻酷的是因為那個時代英國倫敦所使用的語言和文法跟現在的會有點不同,所以需要重新調整裡頭的 token 的表現形式,讓模型用來學習「哪些字母或字元經常出現在一起,應該被組合建構成一個單字(Token)」。總共有五個版本 v0、v0.5、v1、v2mini-eval1、v2mini-eval2,大家有興趣可以去看看各個版本的差異。
或許這個概念可以套用在中國歷史上,每個朝代都做一個語言模型的版本出來(唐朝模型、清朝模型......),讓他們互相吟詩作對~~
作者:小緯