IKP: 用冷知識找出模型參數量
一周前,Pine AI 的 Bojie Li 推出一篇論文,名為「Incompressible Knowledge Probes」的論文。他用一個非常有趣且巧妙的方法,可以直接逆推所有大模型的參數量。
他用的方法其實很簡單,就是去找那些冷知識。
他的概念是這樣:某些冷知識,例如科博館是由誰建立,或者誰創立了快取無關演算法這個領域,又或者是拓撲領域是由誰開展的,或者是某個有名的網路安全競賽的第五道題的題目內容跟解答要怎麼回應。總之,
這個問題一定是填空題
這個問題是完全不能用推理去推出來的。
利用這個方式去測試一個模型到底記住了多少冷知識,再用這個記住的冷知識數量去回推它的參數量到底有多大。他收集了 1,400 個冷知識,並將這些冷知識分為 T1 到 T7 等級。這些資料已公開在 GitHub 上。基本上,T7 的部分沒有任何一個模型答對過任何一題;T1 的部分其實蠻簡單,例如加拿大的首都是哪裡這類題目。
這個團隊首先在 89 個參數已知的開源模型(例如 LLaMA 這類開源模型)上進行測試。做完測試後,他們得到了模型的回答準確度以及參數量,然後做出一個 Log Regression 的模型,發現它的 R² 是 0.917,非常高。
利用這個非常高的模型,他們可以進一步呼叫目前各大廠商的模型 API,然後問這 1,400 個問題,再用模型的回答準確度去找出它可能的參數量。
在這些模型中,目前最受關注的參數量如下:
OpenAI 最新的 GPT-5.5 基本上是 9 兆參數
Anthropic 的 Claude Opus 4.7 是 4 兆參數
Google Gemini 2.5 Pro 是 1.2 兆參數
GPT-4 的部分是 7,200 億參數
論文中還有很多有趣的東西:
如果讓模型可以開始思考,也就是打開它的 Thinking Mode,會不會讓它的分數變高?結果只有 Grok 特定模型會,其他基本上做不到。這證明瞭這些題目基本上就真的是只能死記硬背,跟模型有沒有深度思考沒什麼關係。
他打破了之前有人提出的 Densing Law 的迷思。有些人會覺得說,AI 時代的小模型會一直蒸餾大模型的效果,讓大模型的能力可以一直濃縮在小模型裡面。那麼,如果一直持續濃縮,會不會有一天其實小模型的能力就可以打敗大模型?這個實驗其實很明確地告訴你說不行,因為基本上你要記憶這些冷知識的話,你只有靠死記硬背。而死記硬背在 AI 模型裡面,其實就代表了一件事,那件事就是參數量。
還有一些像是 MoE(混合專家型)模型的特色。它基本上這個架構是把冷門的知識有效分散在各個專家的網路中,所以它其實不會犧牲掉知識儲存的能力。
這個模型還有特別在研究幾件事情。其中一件是關於計分方式。這 1,400 個題目其實算分很簡單:
如果寫對了就加一分
如果模型輸出「我不知道」或者「我不會」的話,就給 0 分
但如果模型胡說八道,或者吐出一個錯誤的答案的話,那就扣一分
它是有倒扣制的。既然它有倒扣制,所以我們也可以假設它所有輸出錯誤的答案都是幻覺的話,我們可以拿這些幻覺以及它的準確度做一個 Correlation Matrix,去找出某些模型家族間跟模型家族外之間的相關性到底有多高。進而可以看得出來哪些模型是不是有可能是蒸餾別人家的模型。所以它那個叫做 Knowledge Fingerprint 的部分。
很明顯的狀況就是,首先家族內的模型 Correlation 會非常高。其次是家族外的 Correlation,你會看到 GPT 跟阿里巴巴的通義模型其實算是蠻高的相關性,然後 GLM 的模型其實跟 Anthropic 也有高度相關性。當然這只能懷疑,也不能說這就是證據。
如果你對模型的評分方式已經有一定了解,那接下來會問一個很重要的問題:
為什麼不用 MMLU 的方法?
MMLU 太舊了,因此它的問題很有可能很多模型都已經看過了。
MMLU 它裡面的答案是四選一的選項,所以有可能它可以賽對
MMLU 的某些問題,它其實是可以推論出來的
作者:CCL