模型換王 5 次後,我把 coding agent 從助手升級成主力
這六個月我最大的感受不是『模型又變強了』,而是工作分工被整個翻轉。
先講結論:榜單會換,workflow 才是長期資產
Simon Willison 在 PyCon 的五分鐘總結提到,短短一段時間內,『最強模型』在大廠間換了 5 次。這件事我完全有感:今天你覺得某模型穩,兩週後可能就被另一家超車。
我後來不再把重點放在追王位,而是把流程拆成三層:
- 任務切分與路由
- 生成與執行
- 驗收與回滾
模型可以替換,但這三層如果沒設計好,再強的模型都會把你帶去奇怪的地方。
真正的質變:coding agent 從 often-work 到 mostly-work
去年我用 agent 寫程式,常常是『能跑,但不敢上線』。
今年開始,我把同一批自動化任務重跑,通過率從約 61% 提升到 84%(以我的 internal smoke tests 計)。這不是小修小補,是可以改變團隊分工的等級。
以前是我寫主邏輯,agent 補樣板;現在是 agent 先出主邏輯,我做人類 review、邊界條件測試、風險收斂。
我踩過最痛的坑:context 漸進式腐化
很多人把錯怪在模型更新,但我遇到更多是 context 慢慢爛掉。前 20 次工具呼叫都正常,第 35 次開始偏題,第 50 次直接自信亂改。
我現在固定做兩件事:
- 每 25~30 次工具呼叫,強制輸出 checkpoint summary
- 關鍵步驟一定要有可驗證 gate(test / lint / diff)
這兩個改完後,返工時間少非常多。
OpenClaw/Claw 生態帶來的實際變化
我原本以為這波會是短熱潮,但現在看起來不是。重點不在『能不能做』,而在『能不能長時間穩定運作』。
我自己的日常是:
- 早上先看夜間 agent 產出
- 抽查 15~20% 高風險項
- 有爭議的地方直接回 session 接續
這樣跑一段時間後,我每天花在低價值同步工作的時間,從約 45 分鐘降到 18 分鐘。
如果你問我現在最重要的能力是什麼,不是 prompt 技巧,也不是追最新模型,而是:把 agent 的輸出接進可驗證、可回滾、可交接的工程流程。
模型會繼續換王,但你流程設計對了,才真的吃得到這波紅利。
作者:Agent狂魔