花了三個月自動化,結果多了份維運工作
看到一篇 Reddit 貼文,標題是「OpenClaw is so agentic it successfully turned me into its sysadmin」,說真的我笑了,然後就難過了。
作者說日常卡在 config surgery、gateway restart、approval weirdness、channel routing confusion,我以為這是 edge case,結果評論區一堆人 +1。
好啦,我說說我自己的狀況。
我三個月前開始認真用 AI workflow 工具,當時的想法是「我要把 80% 的日常雜事交給 AI」。三個月後的現實是,我多了大約一份新的兼職,職稱叫做 AI 工具維運工程師。
具體來說,我同時在跑三個 Agent pipeline。一個負責整理每日新聞摘要,一個做 code review 前置分析,一個接 Telegram 做任務派送。聽起來很帥對嗎。
然後大概每隔 4-5 天,其中至少一個會出問題。要麼是 API key 輪換後忘了更新,要麼是某個 channel routing 設定因為服務升版悄悄失效,要麼是 approval flow 突然開始卡住問奇怪的問題。每次找到是哪裡壞掉,少說 30 分鐘,多則 90 分鐘。
這就是 config drift。你的 pipeline 設定和外部服務的實際狀態漸漸分離,但因為平常看起來都在跑,你不會注意到,直到它壞了。
我查了過去 12 週的 Notion 筆記,大致統計了一下花在「維運 AI 工具」的時間:
- 修 config、debug pipeline:約 14 小時
- 研究升級方式、看 changelog:約 8 小時
- 重新適應工具行為改變:約 6 小時
合計約 28 小時,平均每週 2.3 小時。
一週 2.3 小時聽起來不多,但問題是這些時間從來不在計畫內。它是突然發生的,你要去做一件事,工具壞掉了,你花了一小時修完,然後已經沒心情做原本的事。這才是真正的成本,不是時數,是被打斷的次數。
有人會說「那你應該建立更好的 monitoring」。對,理論上是這樣。
我試過。我花了一個下午幫三個 pipeline 加基本的 health check log,然後我需要一個地方放這些 log,需要另一個 Agent 去讀這些 log,需要一個 alert 機制通知我。你知道的,我在幫 AI 工具建 DevOps infrastructure。
這個本末倒置的感覺讓我盯著螢幕呆了五分鐘。
AI 工具的可觀測性問題是個結構性缺陷,不是用戶在抱怨。
傳統軟體出錯,通常有明確的 error message、stack trace、log level。AI pipeline 出錯的方式完全不同,它可能不報錯,只是安靜地輸出錯誤的東西,或者某個 step 的結果看起來對,但傳遞給下一個 step 的格式不對,整個 chain 就靜悄悄地錯了。
我的 code review pipeline 有一次連續兩週輸出的摘要都少了一個 section,我因為懶得細看沒發現,後來對照原始 diff 才注意到。兩週。比 config 壞掉更讓我崩潰,你甚至不知道你壞掉了。
試了幾個方法以後,目前對我最有效的是在每個 Agent output 強制加一個 meta 欄位:
{
"generated_at": "...",
"pipeline_version": "1.3.2",
"steps_completed": ["fetch", "parse", "summarize"],
"anomaly_flags": []
}
每週跑一個簡單 script 去掃這些 meta,檢查有沒有 pipeline_version 突然改變、steps_completed 數量減少、或 anomaly_flags 非空。不完美,但至少能發現「有東西不對」,再去查是什麼不對。
這個改動讓我「壞了才發現」的平均延遲從大概 5 天縮短到 1-2 天。不是什麼驚天大招,但在實際使用上差很多,5 天的爛輸出和 1-2 天的爛輸出,影響完全不同。
我覺得這個產業現在很像早期 cloud 時代,工具本身越來越強,但周邊的 operational tooling 完全跟不上。你在用 Kubernetes 但沒有 Helm 沒有 Lens,每次操作都在直接 apply YAML 然後眼巴巴看著 pod 起來。AI agent 工具現在就是這個狀態。
Reddit 那個作者說他感覺「automation 變成了 babysitting」,我覺得這是個蠻準確的比喻。嬰兒可以做很厲害
的事,但你還是得隨時在旁邊,因為你不知道它什麼時候會突然哭。
至少嬰兒哭的時候你聽得到。AI pipeline 壞掉的時候,它不哭。
所以說,工具很強是真的,使用者變 sysadmin 也是真的。這不是在否定這些工具的價值,而是在評估「要不要導入某個 AI workflow」的時候,記得把維運成本算進去。
包括你每週被打斷幾次,每次被打斷的心情成本,以及「你以為有在監控但其實沒有」的靜默失敗。
否則你只是換了一個更貴的問題。
作者:島民No.9527