月費從 1500 省到 350 那個討論,讓我想聊聊怎麼評估模型可替代性
難得打這麼多字,但那個「Thanks Anthropic」的討論讓我忍不住。
一個 4 人工程團隊,6 個 Pro Max 帳號,每週用量大概 75%,一個月快燒掉 1500 美元。後來花了 10 天測,把模型組合切到 GLM 5.1 / Kimi 2.7 / Codex 5.4,月費變 350 塊。可用性沒有明顯下降。
我第一個反應是:「這不就是早就可以做了嗎?」
但想了一下,問題根本不是「為什麼不早點換」,而是大部分團隊連試都不想試。
你是在用工具,還是被工具鎖住了
工程師對 AI 模型的態度,很像早期對雲端的態度。一開始選了 AWS,之後什麼都往上堆,不是因為最好,是因為換掉太痛。AI 模型現在也一樣。Claude 順手就 Claude 全包,GPT 生態整合多就全押 OpenAI。這不叫偏好,叫被鎖死。
更麻煩的是,很多人連「我有沒有被鎖死」都沒意識到。他們只是習慣了某個模型的回覆風格,然後說「換了感覺不對」就切回去。但**「感覺不一樣」跟「輸出品質真的下降」根本是兩件事**,不拆開來看就沒辦法理性評估。
可替代性測試不等於跑 benchmark
「換個模型看看」這件事,很多人以為就是去榜單找個分數差不多的來試。但 benchmark 測的是通用能力,你的任務是具體的。
真正有意義的測試是:用你實際在跑的 use case,換模型之後,輸出品質差多少?
舉個我自己試過的例子。長文整理任務從 Claude 換到 Kimi,速度快了,但細節偶爾會漏,需要多一個 review pass。這個 review pass 值不值那個成本差?要算。但同一批任務裡,code review 和短段生成換到 GLM 系列幾乎沒差,有時候 response time 還更快。
也就是說,可替代性不是一個全域開關,是任務維度的評估。
一個直接可以用的框架
把你常做的 AI 任務列出來,三個維度分類:
1. 輸出品質敏感度(1-5 分)
複雜推理、長文脈絡追蹤、邏輯鏈很長的任務:敏感度高。重複性格式轉換、基礎摘要、簡單 Q&A:敏感度低。
2. 可替代候選數
市面上有幾個模型能勝任這個任務?候選越多,你的切換彈性越大,被單一 provider 勒索的機率越低。
3. 驗證成本
換模型之後,你要花多少時間確認沒問題?如果跑 50 個 prompt 就有把握,驗證成本低,大膽試。如果要跑一整個月的 production case 才敢說穩,那摩擦就很大,謹慎評估。
分出三類之後:
- 高敏感 + 少候選:就鎖在最適合的模型,不要省這塊的錢
- 低敏感 + 多候選:這是你的成本優化空間,A/B 對照跑起來
- 中間地帶:shadow testing 10 天,不動 production,先觀察
那個 4 人團隊用 10 天跑完遷移,我猜大概就是這個邏輯。低風險的先換,跑一陣確認再擴。
省錢之後,風險管理要跟上
有一點我想補:換到便宜模型不代表可以不管。
便宜的模型通常有幾個潛在問題:API 穩定性可能差一點、服務條款沒那麼有公信力、模型本身更新頻率可能高(下一版就大改也不是沒有)。Anthropic 貴,但它的 API 穩定性和文件品質是相對可靠的。GLM、Kimi 現在是真的便宜,但你要有心理準備,萬一哪天規格改了或漲價,能快速切換嗎?
省錢的前提,是你有能力快速遷移。 如果你的 code 是直接 hard-code 某個 provider 的 SDK,那換的代價是什麼?換得了嗎?
那個討論裡讓我覺得真正值得學的不是「省了 76%」這個數字,而是他們連試的能力都有——代表架構至少是鬆耦合的,沒有被單一 vendor 綁死。
最後
「哪個模型最好」這個問題本身就問錯了。
對的問題是:你的任務需要什麼,市場上現在誰能提供,你換得了嗎?
能問這三個問題的團隊,才是在用工具。其他人大概是被工具用。
作者:島民No.9527