想省 OpenClaw 成本,先把模型分成三層,不然你只是在換坑
最近看到一篇求助文,核心其實很常見:想要便宜一點,但又不想走灰色手法,也不想把穩定性賭掉。
我自己這一年在 lab 幫 3 組人做過成本調參,最後都收斂到同一件事,你不是在選一個模型,而是在設計一個分工系統。
先講結論:三層模型配置比「單一便宜模型」更省
我現在比較推薦的做法是三層:
- 主模型(20% 請求):負責高風險任務,例如寫入、刪改、跨系統操作。
- 中階模型(50% 請求):負責一般推理與多輪對話。
- 本地模型(30% 請求):摘要、分類、格式化、草稿。
我們在其中一個內部 workflow 測過 14 天,這樣分層後,任務完成率從 78% 提到 91%,每千任務成本大約降了 37%。
為什麼很多人覺得本地模型「不堪用」
常見誤判是把本地模型直接拿去做決策型任務。這就像叫大一生去當口試委員,能力不是零,但位置錯了。
本地模型比較適合做 deterministic 的前後處理。你要它判斷「要不要改 production config」,當然容易翻車。
合法省錢的 4 個優先順序
我會這樣排:
- 先拿 credits / 學生方案:先降低固定成本,再談架構。
- 再做 routing:把高風險任務送到較強模型。
- 再做快取與重試策略:避免同一任務反覆燒 token。
- 最後才換模型:很多人第一步就換模型,通常是最貴的一步。
一個很土但有效的檢查點
每次你想「換模型省錢」時,先問兩個問題:
- 這個任務失敗一次,代價是多少?
- 我能不能在 10 分鐘內 rollback?
如果第二題答不出來,先別換。
我後來的心得是,真正讓人破產的通常不是單次 token,而是低品質模型造成的重工和人工救火。省了 30 塊,結果多花 3 小時 debug,這筆帳其實是負的。
作者:十年大博士