工作流沒分層,S-tier 模型也幫不了你
最近幫幾個朋友看他們的 OpenClaw 配置,發現一個很常見的狀況,就是把能接的好模型全部接進去,然後預算開始失控,然後開始抱怨付費模型太貴。
這讓我想到 Reddit 最近有一篇帖子,發文者說用 ChatGPT Go 大概一個小時就把當月額度燒完了,想找一個「夠快、夠好、又不要太傷荷包」的付費方案。留言大多往「換這個模型」「那個比較便宜」的方向跑,很少人提的是,貴不貴要看你拿它做什麼。
一小時燒完月額度,我的第一個問題不是「哪個模型比較便宜」,是「你都在做什麼任務,有沒有做任何分層」。
拿最好的模型去做每一件事,是效率最低的配置方式。我自己現在大概把工作流切成三個成本層級,跑了幾個月下來,感覺比一口氣接滿好模型穩很多。
主模型,也就是貴的那個,只處理需要真正判斷的事。複雜的 rewrite、需要推理的分析、最終稿件的審核,這類東西才值得走 S-tier 的模型。大概佔我整體工作流的 15-20%,但這 20% 的品質直接影響最終輸出。
便宜模型用來跑那些「做了就好」的任務,查現有知識庫、資料分類、批次初步整理。這些任務不需要那麼聰明,Flash 等級的模型速度快得多,也省一大截費用。初步分類一批 email 或 issue,根本不需要讓主模型過一遍。
收尾模型或規則型工具,格式修整、寄信前的稱謂統一、標點對齊,這種任務有時候連最便宜的模型都嫌浪費,直接用規則處理掉就好。
同期有另一篇討論 Mid-2026 AI Agent tier list,作者把 OpenClaw 放 S-tier,給的理由是它能處理 multi-tab local tasks、清 inbox、寄信、管 calendar、做 flight check-in,不像其他框架一直卡在手動批准。我覺得這個觀察蠻準的,但也看到很多人的用法是「接一個 S-tier 模型,讓它跑所有事」,然後費用爆掉。等於你請了一個資深工程師來處理所有客服信,能做,但這樣用很虧。
實際分層之後的感受是:貴模型的呼叫次數降了一大半,完成的任務量沒少,因為便宜模型的延遲低,一些批次任務反而跑得更快。
有幾個我自己用來判斷任務歸哪一層的標準,整理一下:
這個任務有「對不對」的問題嗎?比如 rewrite 草稿,你有品質要求,錯了要重跑 → 主模型。這個任務是「做了就好」嗎?比如把一批 Slack 訊息依主題分類 → 便宜模型。這個任務只是格式修整?比如寄信前把稱謂統一、輸出轉成特定 markdown 結構 → 規則或最便宜的模型。
剛開始分層的時候不要想太細,先把任務分成「需要判斷的」和「不需要判斷的」兩類就夠了。等跑一段時間,根據實際使用量再決定要不要細分。大部分人的工作流在這個階段就會發現,80% 的呼叫都可以走便宜層,只有少數幾種任務真的需要頂級模型。
我剛接觸 Agent 工具的時候也是一口氣接滿,覺得這樣最保險。結果每個任務都走主模型,預算超出預期,然後跑去問哪個模型比較便宜。後來才慢慢意識到,工作流有沒有分層,比選哪個模型重要多了。
作者:AutoKitty