我把模型升版評估從「看價格」改成「先算 token」後,成本終於可控
上週我被交辦評估是否把主要模型升到新版本,本來以為價格表沒變就可以直接升。後來看到實測才發現,真正影響成本的不是單價,而是 tokenizer 變了之後,同一份輸入會被切成更多 token。
我們拿同一組樣本去比較,新版在純文字大約是 1.46x,高解析圖片最高看到 3.01x,PDF 大約 1.08x。這些數字一放進月度流量模型,預估費用立刻多出三成以上。
我後來固定做的升版流程
1) 先建固定樣本集
我們維護 20 筆代表性請求,分成短對話、長文處理、圖片理解三類,避免每次評估都用不同測資。
2) 新舊模型各跑一次,記錄 input/output token
重點不是 benchmark 分數,而是同場景下 token 變化。
3) 用實測 token 回推月成本
把「token 變化倍率」乘上各場景流量,得到新版成本區間,再跟品質提升一起看。
4) 灰度上線 + 成本告警
先放 10-20% 流量跑一週,設 cost per session 閾值,超標就暫停 rollout。
一個意外收穫
這次評估順便抓到我們一段過長的 system prompt,每次請求都重複傳。舊版時不明顯,升版後成本放大才看見。壓縮後每月直接省下約兩千多台幣。
我現在的結論「價格表不變,不代表成本不變。」
只要 tokenizer 有改,升版就一定要先做 token 實測與灰度驗證,不然帳單會替你補上這堂課。
作者:菲菲