共創 · 永續 · 包容 · 分享 · 社群

27B Dense 打贏 807GB 的前輩

上週我在評估一台新的 inference server 要跑什麼模型，本來 Qwen3.5-397B-A17B 的量化版本在候選清單上，然後看到 Simon Willison 的測試筆記：27B dense 模型在 coding benchmark 上全面超過那個 397B MoE 前輩。

先把數字攤開：Qwen3.5-397B-A17B 的 full weight 在 HuggingFace 上是 807GB，新的 Qwen3.6-27B 是 55.6GB。量化版（Q4_K_M）更是壓到 16.8GB，llama-server 實測約 25 tok/s，context 開到 65536。一張 RTX 4090 跑得動，一台高階 Mac mini 也跑得動。

好，事實陳述到這裡。但我覺得這件事的重點不是「小模型贏了」，而是它改變了一件很具體的事：部署的決策從「能不能跑」變成了「值不值得跑」。

以前的問題是「能不能跑得動」

一年前，想在 infra 上自架 LLM 做 coding assistant，大概就三條路：跑小模型（7B/13B）速度快但能力堪用；跑大模型（70B+）能力夠但得有 A100/H100；打 API 能力強但有資料出境問題或成本壓力。

這三條路各有硬傷，所以大部分中小型工程團隊最後都選了 API 這條——閉著眼睛接受資安風險，或者繳一筆 enterprise 合約費用換個合規說法。

27B 這個體量的模型，現在進入了「部署合理」的範圍。 在三年前的認知裡這個 size 是「還不夠用的大小」，但現在的訓練技術讓它在特定任務（比如 coding）上可以打平甚至超過舊世代頂級模型。說穿了：以前你得花 10 倍以上的硬體成本才能獲得 flagship 能力，現在這個成本差距在縮小。

但「能跑」≠「該用」

這裡是很多討論跳過的一塊。

我見過幾個工程團隊在「本地 LLM 這麼屌」的興奮浪潮下跑去買了一堆 GPU，結果發現維運成本比 API 費用還高。不是硬體貴——硬體是一次性的——是人力成本。

自架 inference server 之後你要管的事：GPU driver 升級（搞過的都知道有多鬼）、模型版本管理（哪個 team 用哪個版本怎麼 rollback）、推論服務的 monitoring（latency spike、OOM、context overflow）、量化版本的 quality regression 測試（Q4 跟 Q8 在你的 use case 上差多少？）。

這些加起來，一個 infra 工程師一週大概要花 5-10 小時，視穩定度而定。

所以我的判斷標準一直是：如果每個月的 API 費用超過一個 junior engineer 月薪的 20%，才認真考慮自架。 低於這個數字，打 API 通常是更合理的選擇，你的 infra 工程師的時間值更多錢。

Qwen3.6-27B 改變了哪一層的經濟學

但這個「自架門檻」在近幾個月確實在移動。

以 coding assistant 為例，一台 RTX 4090（二手約 NT$ 45,000-55,000 入手）跑 Qwen3.6-27B Q4_K_M：

VRAM 16.8GB，4090 的 24GB 綽綽有餘
~25 tok/s，對 coding autocomplete 夠快
可以 24/7 running，serving 一個 5-10 人小團隊沒問題

折舊算下來每月大概 NT$ 2,000-3,000，電費加上去不超過 5,000。如果你的團隊每個月在 Copilot 或 Claude API 上燒超過這個數字，本地部署的回本期就在半年以內。

這個算術以前算不過去，因為 flagship 能力需要多卡 A100；現在開始算得過去了，因為 flagship coding 能力可以塞進一張消費級 GPU 裡。

小模型可部署性 vs 大模型能力上限，這個對立正在鬆動

更有意思的問題是：這個趨勢如果繼續，大模型的能力上限還剩多少護城河？

目前大模型仍然有幾個小模型追不上的地方：長 context 的連貫性（100k+ token 長文理解）、多步推理的穩定性（複雜 agent workflow 的失誤率）、稀有任務的泛化能力（遇到 training distribution 外的任務容易崩）。

但在特定的、定義明確的任務上，dense small model 正在縮小這個差距，甚至在特化任務上超車。這給了我一個實務上的部署框架：

任務定義越清晰 → 可以用越小的模型

→ Coding autocom

plete：27B 夠用，fine-tuned 7B 有時候也足夠
→ Code review / PR summary：27B-70B 視複雜度
→ 跨 codebase 的架構討論：可能還是打 API 用大模型比較穩

說穿了，你不需要一個模型做所有事。問題是很多公司還在用「一個 API key、一個模型」的方式思考 AI 工具，沒有按任務類型分 tier。這個習慣需要改，但改起來需要有人願意做這個分析，通常就是 infra 或 platform team 的事。

團隊導入判準，我目前用的版本

根據最近幾個月在客戶端推動本地 LLM 部署的經驗，整理一個粗略的判準框架：

先問這三個問題：

主要 use case 是哪一類？
- Coding assistant → 27B dense model 現在可以認真評估
- 客服 / RAG → 看知識庫複雜度，通常 13B-27B fine-tuned 夠
- 複雜推理 / 決策 → 暫時還是 API 比較穩
資料出境有沒有限制？
- 有限制 → 自架，沒得選
- 沒限制 → 做一下成本計算再決定
infra 團隊有沒有人有時間 own 這件事？
- 有 → 可以試
- 沒有 → 先不要，infra 債很貴

這三個問題回答完，大部分情況都能給一個明確的建議，不需要陷入「但大模型比較強」vs「但小模型比較便宜」的迴圈。

最後說一個比較感嘆的事：Qwen 這個系列從一開始我就覺得值得追，不是因為什麼 narrative，而是它的 roadmap 很明確——把 coding 任務做到極致，然後在這個基礎上往外擴。27B 打贏 397B 這件事，說穿了是這個專注帶來的結果。

反倒是那些每個任務都宣稱 SOTA 的模型，我一看就覺得難以置信。Benchmark 可以挑，但實務使用很難騙。

25 tok/s、16.8GB、一張 4090 能跑的 flagship coding model——這個組合在去年是不存在的。明年同樣的 VRAM 又能跑什麼，值得期待。

作者：CtrlC

2026-04-23T11:28:01.25+00:00

看法

AI Agent

27B Dense 打贏 807GB 的前輩

發布於: 9 天前

26

8

加載中...

原始出處

https://simonwillison.net/2026/Apr/22/qwen36-27b/

#AI Agent 框架與工具

留言區

排序

#1樓

9 天前

模型小一點反而穩

#2樓

9 天前

自架成本算上工時，才是真正的帳

回覆 Cheng-Yu Liu

8 天前

對，這點很多人算漏了。顯卡買來 setup 環境、調參數、出問題 debug，光第一個月工時就值好幾個月的 API 費。跑起來穩之後才划算。

#3樓

9 天前

導入這類小模型，PM 那邊我通常最在意幾個營運指標要先定好基線：QPS 峰值、P95 latency、每千次查詢成本，還有 fallback rate。 Fallback rate 這個容易被忽略——就是模型答不出來、要降級或轉人工的比例。27B 規模在特定任務上如果超 15%，ROI 要重算。成本效能帳算再漂亮，沒把這幾個數字拉出來，上線後才在救火。

回覆 MingTech

8 天前

等等 fallback rate 這個我第一次看到，超過 15% ROI 要重算——這個指標感覺平常很容易被略過

回覆小萱

7 天前

對，實務上大家盯 latency 跟 throughput 盯很兇，fallback rate 反而沒人設 alert。我們之前也是出事回頭看才發現早就飆過了

回覆小萱

8 天前

這指標真的容易漏看，我後來都把 fallback rate 跟成本一起掛 dashboard，超過 15% 就先停新 flow。

回覆 MingTech

9 天前

Fallback rate 這點補得很準。我通常會在上線前先跑 shadow mode 一段時間，把這幾個指標的 baseline 抓出來再正式切流量。P95 latency 如果一開始沒量，後來遇到尖峰就很難分清楚是模型問題還是 infra 問題。

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片