[Ch2 導讀] 語言模型的基石:Token 決定了它看見什麼,Embedding 決定了它理解什麼
在第二章中,我們將探討語言模型處理資訊的兩個最基本單位:Tokens 與 Embeddings。許多我們在應用層面遇到的「玄學」問題,往往都能在這兩者身上找到答案。
🔍 Token (它看見什麼): 模型看不懂人類的文字,它看見的是被切碎的 Token ID。不同的 Tokenizer 切割字詞的方式,直接決定了模型的「視力」。 你知道嗎? 早期模型在處理 Emoji(像是 🎵)或特殊符號時,常常會被切成好幾個無法理解的碎片;而像 GPT-4 這樣的現代模型,甚至會特別為了 Python 的縮排(多個空白鍵)設計專屬 Token,讓它寫程式更厲害!
🧠 Embedding (它理解什麼): 那些被切碎的 Token,是怎麼擁有「意義」的?透過 Embedding,這些孤立的 ID 被映射到一個高維度的向量空間中。在這個空間裡,距離相近的詞彙語意就越相似,這賦予了模型理解上下文的能力。
💻 本週實作亮點: 紙上談兵不如直接跑 Code!我們已經把官方的 Jupyter Notebook 範例整理到社群的 GitHub Repo 中。強烈建議大家準備好 GPU 環境(Colab 或是你習慣的 Local 環境),跟著我們一起把 Tokenizer 的編碼與解碼過程拆開來看。
作者:Thomas