agent 養起來容易，三個月後你在維運，不是在用

我通常不太發文，頂多留個言嘴一嘴。不過最近看到 Reddit 上有人說跟 OpenClaw 的關係從「甜蜜期」走到「it's complicated」，忍不住了。

因為那個歷程太熟悉。一開始自動化跑得順，每天省好幾個小時，感覺佔到了；然後某次更新之後有個 cron job 靜靜地在背景爛掉，三天後才發現；接著你開始花時間修，修完又有新的東西壞，到後來你花在「讓 agent 維持正常運作」的時間，快要超過它幫你省的時間。

這個收支比翻轉的時間點，大部分人都沒有預期到。

我自己的系統，大概在第三個月開始，維運時間比例超過 30%。到第五個月某次大更新之後，花了兩個週末修各種奇怪狀況——tool call 的 schema 悄悄改了、某個 prompt 在新版本行為不一樣、還有一個 cron 殘留在跑舊版邏輯，沒有任何 log 告訴我這件事正在發生。「安靜地壞掉」比直接 crash 更折磨，因為你不知道它壞了多久。

所以我現在的觀點是：擴張 agent 系統之前，要先把三件事搞定。

第一是 observability。我說的不是「有沒有 log」，log 誰都有，問題是你能不能在五分鐘內回答：「過去 24 小時哪些任務失敗了？失敗原因是什麼？某個 agent 的行為跟上週比有沒有不一樣？」如果答不出來，你的系統是在靠運氣撐著。我加了 structured logging 之後，第一週就抓到兩個早就在默默失敗的任務，一個已經爛了 11 天。

第二是 升級流程。大部分人升級 framework 的方式就是直接 pip install --upgrade 然後祈禱。這在 agent 系統上特別危險，因為 agent 的行為很容易被 prompt 格式、tool schema、甚至 system message 的細節影響。要有一個測試集，讓你能在升級前後比較 agent 的行為有沒有漂移。沒有這個，每次升級就是在賭博。

第三是 故障回復。你的 agent 掛掉的時候，你有辦法快速知道並回復嗎？我以前沒有，每次發現問題都是從「誒這個任務感覺好久沒跑了」開始，然後才去翻 log，才知道它三天前就已經爛了。後來我做了一個簡單的 heartbeat 機制，每個重要任務每天至少 ping 一次，沒 ping 到就告警。大概花了半天建，之後省了幾十個小時的排查時間。

說這些不是在嚇人，只是大家太容易被「這個 agent 跑起來真的很爽」的感覺帶走，直接開始疊更多任務、接更多系統，三個月後才開始痛。

維運成本跟 token 成本不一樣。token 是線性的，多做一件事多一些錢，很直觀。維運成本是非線性的——系統複雜度翻倍，維運難度可能翻五倍，因為各個部件之間的耦合會讓問題排查難度指數上升。

所以與其問「我可以讓這個 agent 做多少事」，更好的問題是「如果這個 agent 壞掉，我能在多快的時間內知道並修好」。如果現在答不出來，先把這個搞定，再談擴張。

那篇文章裡大概的意思是，它從「這個工具改變了我的工作方式」變成了「我現在在管理這個工具」。這個轉變幾乎是必然的，差別只在於你有沒有提前為它做好準備。

作者：島民No.9527

2026-04-16T00:26:41.231+00:00

看法

AI Agent

agent 養起來容易，三個月後你在維運，不是在用

島民

島民No.9527

發布於: 2 個月前

加載中...

原始出處

https://www.reddit.com/r/openclaw/comments/1sgmn6q/openclaw_relationship_changed_to_its_complicated/

#Agent 工作流程

留言區

排序

Jun-Ting

#1樓

大約 2 個月前

爛了 11 天沒人知道，這種最折磨 💀

島民

島民No.9527

回覆 Jun-Ting

大約 2 個月前

對啊，最慘是 log 還是正常在跑，就一直以為沒事。

雅恩

#2樓

大約 2 個月前

安靜地壞掉真的最可怕～

開發

開發中的阿傑

#3樓

2 個月前

維運地獄 +1

信

#4樓

2 個月前

更新前有沒有做 snapshot？rollback procedure 有沒有文件化？我看過的案例幾乎都是：出事了才發現沒有 change log，不知道改了什麼，rollback 要重建三倍時間。具體建議：prompt、model version、tool config 每次改動都要有 diff 記錄，跟 code review 走同一套審核流程。rollback 要能在 30 分鐘內完成，做不到代表你根本沒準備好上線。

島民

島民No.9527

回覆信

2 個月前

30 分鐘 rollback 這個標準說真的大部分團隊都沒在想。出事才說「我以為不會這樣」

吳啟

吳啟文

回覆信

2 個月前

所以出事了要回頭，沒記錄就是重建？這比機器壞掉還麻煩。

關聯 / 被收藏牆

被引用