The Wall Confronting Large Language Models
最近讀到一篇蠻值得注意的論文 The Wall Confronting Large Language Models 跟大家分享,這篇論文讀起來有點難,沒有具體的例子可以看,花了幾個小時看了一下,以下記錄我的心得。
LLM 已遇上瓶頸
作者的提到雖然現在 LLM 看似能力不斷提升,但其實已經遇到 scaling laws,也就是不斷增加模型規模和訓練資料,其預測準確度或不確定性收益出現明顯遞減。例如之前 GPT-4.5 被猜測有 5~10 T 參數,使用 MOE (推理時約啟用 600B),但 API 的成本卻是 GPT-4 的 15~30 倍,等於花了大錢但效能提升有限。甚至 OpenAI 起初都不將其稱為 frontier model,可見模型規模雖然猛增,但回報有限;Meta 的 Llama 4 Behemoth 之前也有被質疑過類似的事。
LLM 的 scaling exponent(隨著規模成長而改善速度的指標) 非常小,大約只有 0.1 左右,這代表每年即便將訓練資料翻倍,模型可獲取的有效資訊卻可能要 10 年才增加一倍,以硬體的算力效能的 Huang's law 來看,也彌補不了如此低效的 scaling exponent,這樣下去我們未來很有可能會走向「Degenerative AI」,也就是越訓練,模型越差。
LLM 學習力與準確率的拉鋸戰
作者提出會這樣的原因之一在於 LLM 本質上的「non-Gaussian」學習結構。一般而言,在許多自然現象中,誤差或波動往往近似服從 Gaussian distribution;Gaussian distribution 有個性質就是 outliers 的機率極低,因此平均多次試驗,可以快速收斂,提升可靠性。然而,LLM 的學習過程涉及高度非線性的變換,使得 output 呈現 Heavy-tailed distribution,不過正是透過這種能將原本接近 Gaussian distribution 的 input,轉換成複雜多樣 non-Gaussian distribution 的 output,LLM 才會有強大的學習能力。
然而 Heavy-tailed distribution 同時會帶來準確率的隱憂,因為在 Heavy-tailed distribution 中, outliers 出現的機率高很多,風險始終存在,而要處理這種狀況,需要成倍甚至指數倍的資料才能將這種不確定性壓低到與 Gaussian distribution 同樣水準。
單純增大資料沒辦法解決
除了上述模型內在的統計限制外,作者也強調了資料層面的限制,如 spurious correlations (偽相關) 的問題,如 Calude 和 Longo 等人所指出,無論資料性質如何,只要資料足夠龐大,都會出現各種隨機巧合般的偽相關,這些關聯只是因為資料夠多才出現,並非代表真正有關連。
在這種情況下,當我們不過濾,只拼命地往模型裡餵入更多資料時,模型學到的噪聲可能比有用知識更多,這其實在過往統計、機器學習領域就已經反覆強調過了。
解決方法
作者最後提出,不能再靠暴力解「多資料、多參數、多電力」路線,而要更重視問題的整體結構性,也就應結合更多人類對 domain knowledge 的洞察,並融入科學方法如 world model 與 causal inference。在傳統科學裡,我們不會盲目地亂算,而是先弄清楚問題本身的數學或物理規則,知道用多少資源能換來多少準確度,再決定怎麼投資算力。
作者也覺得 AI 應該這樣,與其拼命砸錢把模型訓練得更大、更黑箱,倒不如花心思設計有解釋性、帶有結構約束的模型,或是先把資料好好篩選過,挑出真正有用的知識。未來的重點應該放在資料的品質,而非數量。
LLM 是否正面臨成長極限?
我滿認同論文對 scaling laws 的警訊,從我過去參與模型訓練的經驗來看,當模型發展到一定規模後,每投入一分資源換來的精度提升確實越來越小,這在工程上體感非常明顯。
但我覺得現在看到的 scaling laws,只是描述在「現有的做法」下,規模變大能帶來多少效益,但如果我們換一種思路,像是加入新的訓練方式、記憶機制或模組化設計,也許就能打破限制,畢竟 AI 的發展歷史常常是這樣,大家覺得遇到天花板走不下去的時候,新的想法或新的演算法、新的架構就會出現。
作者:Chi