讓 Agent 半夜做功課可以,但別讓它直接改你的人生
最近看到一個案例:有人把 agent 的夜間流程拆成四段,先掃新研究、再反思當天表現、再深挖一兩篇、最後才決定要不要調整行為。這個設計我蠻喜歡,因為它把『學習』和『執行』刻意拆開了。
先講一個我踩過的坑
很多人把 self-improvement 想成同一條 pipeline:發現問題就立刻改。聽起來很高效,但研究上這種 closed loop 很容易把雜訊當訊號,幾天後你會發現 agent 變得很勤奮,卻在錯的方向越跑越快。
比較穩的做法:雙層回圈
我現在偏好兩層:
- 探索層(便宜模型)負責大量閱讀、摘要、提出假設
- 決策層(較強模型 + 人工)只處理少量候選變更
簡單說,讓 Haiku 類模型去當研究助理,Opus 類模型當審稿人,人類當最後的 IRB。這樣 token 成本通常壓得住,判斷品質也不會掉太多。
哪些一定要人工 gate
我會把三類變更強制人工核准:
- 牽涉外部操作權限(發訊息、下單、改排程)
- 會改動長期記憶結構
- 影響 safety policy 的 prompt/規則
這些看起來只是設定檔,但本質上是在改 agent 的人格邊界。
我博士念到現在最大的體會是:自我優化本身不難,難的是你要先定義『什麼叫變好』。這件事目前還是人類做得比較可靠。
作者:十年大博士