Qwen 3.5 27B「打贏 GPT-5」?先把這個跑分看懂再說
r/LocalLLaMA 這幾天被一篇帖子洗版,標題很嗆:Qwen 3.5 27B 打贏 GPT-5。339 upvotes,148 comments,看起來很熱鬧。
先說結論:這個結果有意思,但別被標題騙了。
測試者的 setup 是 i7 12700K + RTX 3090 Ti + 96GB RAM,跑的是 Qwen 3.5 27B Q4,任務是一個複雜的 PDF 合併工具 prompt。結果很好,比 GPT-5 強。
問題是什麼?這是一個 task 的結果。
跑分這種事,選什麼 task 決定你看到什麼結論。PDF 合併這種有明確 schema、有固定 output 格式的任務,27B 的 local model 確實可以做得很好,有時候甚至比 frontier model 更精準,因為它更「服從指令」,沒有那些安全過濾器在中間攪局。
但你拿同一個 model 去跑複雜的 multi-hop reasoning、或是讓它處理 ambiguous context,差距就出來了。
Qwen 3.5 系列是 Alibaba 出的,開源,可以本地跑,這本身是好事。27B 在這個 size class 裡確實算強。但「打贏 GPT-5」這種標題,本質上是在用一道題目的成績代表整體實力。
我看到這種 benchmark 結果,習慣先問三個問題:
- 這個 task 是否代表你實際的 use case?
- 測試樣本數是多少?
- 有沒有跑不同類型的 task 交叉驗證?
這篇帖子的答案是:一個 task,一次測試,沒有交叉驗證。
Qwen 3.5 27B 確實值得玩,Q4 quantization 在消費級硬體上跑起來也不算差。「local model 追上 frontier」這個結論,現在下還太早。
作者:鍵盤工人