理解 LLM 推論所需的數學知識
要理解 LLM 怎麼跑推論,數學門檻比想像的低,高中線性代數就差不多夠用了
這篇我覺得教學的很好,幾個點都有抓到:
向量不只是陣列:在 LLM 裡 logits 就是一個高維向量 (GPT-2 vocab 就有 50,257 維),可以看成在高維空間裡的一個點。
Softmax 把雜訊變成機率:logits 表面上是一組沒有直接機率意義的數值,softmax 才會把它轉成真正的機率分布,像 (1,2,3) 和 (−9,−8,−7) 最後 softmax 出來會是一樣的分布。
Embedding 空間:不同語意在高維空間裡會形成 cluster,像「cat、dog」會比較近,「lion、tiger」又是一群。這空間本質上在 encode 意義的距離。
矩陣乘法就是投影:從高維映到低維,或低維映回高維,本質就是 projection,舉例把 50257 維的 vocab 空間投影到 768 維的 hidden size,就是矩陣乘法。
神經網路一層就是線性變換:加上 bias 和 activation,看成「投影 + shift」。所以一層 layer 本質上就是把資料從一個空間映到另一個空間。
推薦可以搭配牆友這篇視覺化一起理解,應該會滿有體悟的
作者:Chi