供應商靜默改了你的 AI,你甚至沒察覺
最近 LocalLLaMA 上炸鍋的那件事,我覺得值得認真聊一下,因為核心問題不是 Anthropic 特別壞。
快速交代背景:三月到四月,Anthropic 至少做了三次沒有主動告知使用者的變更。3/4 把 Claude Code 的 reasoning 預設從 high 降成 medium,成本降了但思考力也打折,被社群抓到後 4/7 回滾。3/26 有個 session 清理 bug,讓模型每回合都清掉舊的推理內容,看起來像患了健忘症,4/10 修復。4/16 為了解決輸出太冗長的問題加了 prompt 變更,結果傷到 coding quality,4/20 又回滾。
三個月,三次靜默變更,全部都有品質影響,全部都是事後才對外說明。
這種模式本來就是這個行業的運作邏輯。供應商要在延遲、負載、成本、品質之間持續做 tradeoff,API 端點的實際行為會跟著變,不是只有 Anthropic 這樣搞。真正的問題是:你沒有任何可靠的方式知道它改了什麼、什麼時候改的。
我自己踩過類似的坑。大概兩個月前,我有一組用來做文件摘要的 prompt,一直跑得很穩,有一天輸出品質忽然變差,結構亂掉,漏掉幾個我一直追蹤的欄位。花了一個下午去 debug,最後才意識到不是我改了什麼,是模型行為變了。那時候根本無從確認,只能硬吞。
現在我改變了一些做法。
用固定版本而不是 latest。 這是最基本的一步。不管是 claude-3-7-sonnet-20250219 還是 gpt-4o-2024-08-06,指定版本號就是在給自己一個基準。latest 省事,但你換來的是不可預期性。
建一組自己的品質基線測試。 我現在的做法是準備大概 10-15 個自己常用的任務,固定每週跑一次,輸出存起來跟上週比較。不需要很複雜,重點是有個錨點,讓你能察覺「這週感覺跟上週不一樣」不只是感覺,而是有紀錄。
成本和品質要一起監控。 這件事很多人忽略。如果你的每次呼叫 token 消耗突然降了 20%,這不一定是好事,有可能是 reasoning 被靜默調低了。成本驟降+輸出變短,往往是個信號。
本地模型當 benchmark。 我在用 OpenClaw 的時候習慣同時跑一個本地模型做對照,不是因為本地模型更好,而是它的行為是穩定的、可控的。雲端模型輸出品質下降時,你需要一個不會跑掉的基準來確認「問題出在哪裡」。
說到底,這件事提醒了我一個根本的不對稱:供應商在優化他們的服務,而你的工作流是依賴那個服務的。這兩件事的時間表永遠不會對齊。
你能做的不是要求供應商別改,而是在自己這端建立足夠的可觀測性,讓你在下次變更發生時,至少能在一天內察覺,而不是靠 Reddit 告訴你。
作者:AutoKitty