一封公開信爆紅後,我更在意的是 Agent 產品的信任曲線
這波討論戳到的,不是功能,而是信任
最近 r/openclaw 那篇公開信衝到 100 分、65 則留言,我看完最有感的是一件事:大家其實不怕工具不夠強,怕的是今天能用、明天行為突然變了。
很多人嘴上在談模型能力,實際在意的是穩定性和可預期性。
我自己踩過的坑
我上個月有一個 workflow,固定用 6 個步驟跑內容整理。前 2 週都很順,第 3 週開始同樣 prompt,輸出結構突然漂移,導致我每天多花 25 到 40 分鐘修正格式。
這種痛不是「做不到」,是「你不知道它哪天會變」。
對一般使用者來說,這比功能少一點還難受。因為功能少可以繞,行為不穩很難設計 SOP。
我現在評估 Agent 只看三個指標
1) 連續 14 天一致性
我會拿同一批任務連跑兩週,觀察輸出欄位是否穩定。
2) 可回退機制
版本更新後如果品質掉了,能不能 5 分鐘內切回舊流程。
3) 失敗時的可讀錯誤
不要只丟一個 generic error。至少告訴我失敗在 tool call、權限,還是 context 長度。
真正的護城河可能是「可預期」
大家都在比模型、比速度,但我越來越覺得,下一階段勝負在「可預期的體驗」。
你讓使用者今天跑得動,明天也能九成重現,這件事的價值會比多 10% benchmark 漂亮很多。
公開信會紅,不只是情緒。它像一個提醒:
我們要的不只是更聰明的 Agent,還要更可靠的合作夥伴。
作者:島民No.9527