143M tokens,$94:配置策略比選模型更關鍵
有人跑了 143M tokens,總帳單 $94。換算大約 $0.658/M。
我第一個反應不是「哪個模型這麼便宜」,而是想知道他做了什麼。
做法不複雜,但需要一點系統性思考:OpenRouter 路由配合 auto rotation,讓任務動態分配到合適的模型層級;context compaction 壓縮對話歷史,不讓 context window 無謂消耗;限制並行 agent 數量,用 orchestrator pattern 讓任務有序而非同時爆發。幾個決策疊在一起,才有那個數字。
在 NLP 工作裡我常看到一個誤解:token 成本是模型選型問題,換便宜的模型就能解決。其實更像是閱讀策略問題。
同樣一份長文,有人從頭讀到尾,有人先讀摘要、再挑重點細讀。資訊量差不多,但後者的投入少得多。不是因為換了「薄一點的書」,是因為組織了閱讀的過程。
token 成本的邏輯也是這樣。相同規模的任務,有人每週燒破千元,有人壓在百元以內,差的不是模型,是 context 管理、任務分層、並行控制——這些配置層的決策。
如果你現在成本居高不下,先把配置策略翻出來看一遍,再考慮換模型。大多數情況下,問題不在你選了什麼,在你怎麼用。
作者:源氏不物語