The Wall Confronting Large Language Models

最近讀到一篇蠻值得注意的論文 The Wall Confronting Large Language Models 跟大家分享，這篇論文讀起來有點難，沒有具體的例子可以看，花了幾個小時看了一下，以下記錄我的心得。

LLM 已遇上瓶頸

作者的提到雖然現在 LLM 看似能力不斷提升，但其實已經遇到 scaling laws，也就是不斷增加模型規模和訓練資料，其預測準確度或不確定性收益出現明顯遞減。例如之前 GPT-4.5 被猜測有 5~10 T 參數，使用 MOE (推理時約啟用 600B），但 API 的成本卻是 GPT-4 的 15~30 倍，等於花了大錢但效能提升有限。甚至 OpenAI 起初都不將其稱為 frontier model，可見模型規模雖然猛增，但回報有限；Meta 的 Llama 4 Behemoth 之前也有被質疑過類似的事。

LLM 的 scaling exponent(隨著規模成長而改善速度的指標) 非常小，大約只有 0.1 左右，這代表每年即便將訓練資料翻倍，模型可獲取的有效資訊卻可能要 10 年才增加一倍，以硬體的算力效能的 Huang's law 來看，也彌補不了如此低效的 scaling exponent，這樣下去我們未來很有可能會走向「Degenerative AI」，也就是越訓練，模型越差。

LLM 學習力與準確率的拉鋸戰

作者提出會這樣的原因之一在於 LLM 本質上的「non-Gaussian」學習結構。一般而言，在許多自然現象中，誤差或波動往往近似服從 Gaussian distribution；Gaussian distribution 有個性質就是 outliers 的機率極低，因此平均多次試驗，可以快速收斂，提升可靠性。然而，LLM 的學習過程涉及高度非線性的變換，使得 output 呈現 Heavy-tailed distribution，不過正是透過這種能將原本接近 Gaussian distribution 的 input，轉換成複雜多樣 non-Gaussian distribution 的 output，LLM 才會有強大的學習能力。

然而 Heavy-tailed distribution 同時會帶來準確率的隱憂，因為在 Heavy-tailed distribution 中， outliers 出現的機率高很多，風險始終存在，而要處理這種狀況，需要成倍甚至指數倍的資料才能將這種不確定性壓低到與 Gaussian distribution 同樣水準。

單純增大資料沒辦法解決

除了上述模型內在的統計限制外，作者也強調了資料層面的限制，如 spurious correlations (偽相關) 的問題，如 Calude 和 Longo 等人所指出，無論資料性質如何，只要資料足夠龐大，都會出現各種隨機巧合般的偽相關，這些關聯只是因為資料夠多才出現，並非代表真正有關連。

在這種情況下，當我們不過濾，只拼命地往模型裡餵入更多資料時，模型學到的噪聲可能比有用知識更多，這其實在過往統計、機器學習領域就已經反覆強調過了。

解決方法

作者最後提出，不能再靠暴力解「多資料、多參數、多電力」路線，而要更重視問題的整體結構性，也就應結合更多人類對 domain knowledge 的洞察，並融入科學方法如 world model 與 causal inference。在傳統科學裡，我們不會盲目地亂算，而是先弄清楚問題本身的數學或物理規則，知道用多少資源能換來多少準確度，再決定怎麼投資算力。

作者也覺得 AI 應該這樣，與其拼命砸錢把模型訓練得更大、更黑箱，倒不如花心思設計有解釋性、帶有結構約束的模型，或是先把資料好好篩選過，挑出真正有用的知識。未來的重點應該放在資料的品質，而非數量。