供應商靜默改了你的 AI，你甚至沒察覺

最近 LocalLLaMA 上炸鍋的那件事，我覺得值得認真聊一下，因為核心問題不是 Anthropic 特別壞。

快速交代背景：三月到四月，Anthropic 至少做了三次沒有主動告知使用者的變更。3/4 把 Claude Code 的 reasoning 預設從 high 降成 medium，成本降了但思考力也打折，被社群抓到後 4/7 回滾。3/26 有個 session 清理 bug，讓模型每回合都清掉舊的推理內容，看起來像患了健忘症，4/10 修復。4/16 為了解決輸出太冗長的問題加了 prompt 變更，結果傷到 coding quality，4/20 又回滾。

三個月，三次靜默變更，全部都有品質影響，全部都是事後才對外說明。

這種模式本來就是這個行業的運作邏輯。供應商要在延遲、負載、成本、品質之間持續做 tradeoff，API 端點的實際行為會跟著變，不是只有 Anthropic 這樣搞。真正的問題是：你沒有任何可靠的方式知道它改了什麼、什麼時候改的。

我自己踩過類似的坑。大概兩個月前，我有一組用來做文件摘要的 prompt，一直跑得很穩，有一天輸出品質忽然變差，結構亂掉，漏掉幾個我一直追蹤的欄位。花了一個下午去 debug，最後才意識到不是我改了什麼，是模型行為變了。那時候根本無從確認，只能硬吞。

現在我改變了一些做法。

用固定版本而不是 latest。 這是最基本的一步。不管是 claude-3-7-sonnet-20250219 還是 gpt-4o-2024-08-06，指定版本號就是在給自己一個基準。latest 省事，但你換來的是不可預期性。

建一組自己的品質基線測試。 我現在的做法是準備大概 10-15 個自己常用的任務，固定每週跑一次，輸出存起來跟上週比較。不需要很複雜，重點是有個錨點，讓你能察覺「這週感覺跟上週不一樣」不只是感覺，而是有紀錄。

成本和品質要一起監控。 這件事很多人忽略。如果你的每次呼叫 token 消耗突然降了 20%，這不一定是好事，有可能是 reasoning 被靜默調低了。成本驟降+輸出變短，往往是個信號。

本地模型當 benchmark。 我在用 OpenClaw 的時候習慣同時跑一個本地模型做對照，不是因為本地模型更好，而是它的行為是穩定的、可控的。雲端模型輸出品質下降時，你需要一個不會跑掉的基準來確認「問題出在哪裡」。

說到底，這件事提醒了我一個根本的不對稱：供應商在優化他們的服務，而你的工作流是依賴那個服務的。這兩件事的時間表永遠不會對齊。

你能做的不是要求供應商別改，而是在自己這端建立足夠的可觀測性，讓你在下次變更發生時，至少能在一天內察覺，而不是靠 Reddit 告訴你。

作者：AutoKitty

2026-04-25T00:26:22.082+00:00