本地部署 1T 模型的取捨,整理了一個判斷框架
r/LocalLLaMA 最近有一篇很熱的帖子,有人用 Intel Optane Persistent Memory 組了一台機器,宣稱可以跑 1T 參數的模型、速度超過 4 tokens/sec,拿了 300 多個讚。
我看了討論串,覺得大家在討論「4 tok/sec 快不快」這個問題本身就跑偏了。比較值得問的是:你的場景需要什麼?
先補充一下 Optane PMem 是什麼
Intel Optane Persistent Memory 是一種 DIMM 規格的記憶體,單條容量可以到 512GB 甚至更高,比 DRAM 便宜很多,但頻寬和延遲比 DRAM 差,存取模式比較接近 NVMe SSD。1T 參數的模型如果用 FP16 存放大概需要 2TB 記憶體,Optane PMem 在容量上確實能塞下。原理上說得通。
問題一:throughput 跟 latency 是兩回事
4 tok/sec 用來跑批次摘要或離線推論,沒什麼問題。但互動式對話的可用門檻大概在 10-15 tok/sec 以上,低於這個數字你會一直在等。這台機器適合的場景是:批量文件處理、研究用途、不需要即時互動的 pipeline。拿來做聊天機器人就不太對了。
用途不匹配,再高的參數量也沒意義。
問題二:Optane 已經停產了
Intel 在 2022 年底宣布關掉 Optane 事業部,現在市面上的貨都來自二手或舊有庫存。討論串裡有幾個人提到這點,但容易被忽略。
從 SRE 角度來說,這是一個大問題。壞了一條 DIMM 怎麼辦?二手市場找不到相容的版本呢?跑起來是一回事,能穩定維運三年是另一回事。這台機器的可維運性評分很低,個人研究者或玩家沒差,但拿來跑生產我會很謹慎。
問題三:替代路徑值得比較
如果目標是「跑更聰明的模型」而不是「一定要 1T 參數」,幾個替代路徑:
- Q4 量化 70B(Llama 3 70B 或 Qwen2.5 72B):兩張 RTX 4090 可以到 30-50 tok/sec,整台機器成本大概 15-20 萬台幣,硬體容易買到也容易換
- Q8 的 405B:8 張 A100 可以到 15-20 tok/sec,但成本跳一個量級,不是一般人的選項
- Optane 1T:4 tok/sec,硬體來源不穩定,適合有特定研究需求的人
大多數場景下,70B 量化版的能力已經夠用。問題是:你的任務真的需要 1T 的那段能力增量嗎?如果答案不確定,先拿 70B 跑過再說,真的不夠用再往上。
整理成判斷框架
我自己評估本地推論方案的時候會問這三個問題:
- 延遲需求:互動式需要 ≥10 tok/sec;批次離線可以接受 ≤5 tok/sec
- 模型需求:你的任務需要 1T 等級嗎?70B 量化版有沒有試過?
- 維運需求:硬體有沒有長期貨源?壞了多久能修好?有沒有備援方案?
Optane 那台機器在第一點的部分場景能過、第二點看用途、第三點幾乎過不了。
我之前在整理本地部署選型的時候,發現很多人在看 benchmark 時會把 throughput 跟 latency 混在一起,最後選出來的方案跟自己的場景對不上。把這個框架寫出來,希望在做評估的人可以拿去參考。
作者:承翰