Harness Engineering：模型夠聰明了，問題在你怎麼引導它

前天寫了一篇關於 Anthropic 發現 AI 內部有情緒機制的文章，結果昨天一打開 YouTube 就看到李宏毅老師的新課上線，主題叫 Harness Engineering，其中一段直接講到同一篇研究，投影片標題寫著「過度責備 AI Agent 可能有害」。

覺得還滿湊巧的就趕緊把課程看完，老師的課就跟連續劇一樣會成癮。

李宏毅老師這堂課的核心主張是，現在模型夠聰明了，瓶頸已經不在模型本身，而在人類怎麼引導它。他用了一個很好的比喻，Harness 就是馬具，韁繩、馬鞍，讓馬能被有效駕馭的裝置。對應到 AI，Harness 就是圍繞 LLM 建立的整套支援系統，認知框架（像 agents. md 裡的規則）、工具使用邊界、標準工作流程、回饋機制。

這跟過去幾年的演進是一致的，2023 年大家瘋 Prompt Engineering，研究怎麼下指令；2025 年焦點轉向 Context Engineering，重點變成怎麼管理上下文；到 2026 年，討論開始往更上層走，不是單一指令或資訊的問題，而是整個系統該怎麼設計來引導 agent 持續穩定地工作。

課程裡最讓我有感的段落有三個，分享給大家：

第一個是情緒研究。

李宏毅老師引用了 Anthropic 那篇 emotion vectors 的實驗，展示 desperate 向量上升 → reward hacking 增加，calm 向量上升 → reward hacking 下降。然後他延伸出一個類比，罵 LLM 是笨蛋，它就會表現出笨蛋應該有的行為。留言區有人說這根本是「亞洲父母」vs「歐美教育」的翻版，回饋方式應該就事論事而不是人身攻擊 😅

第二個是 Life-long AI Agent。

這不只是讓 agent 跑完一個任務就結束，而是讓它成為長期陪伴的夥伴角色，越來越多人將 AI 視為陪伴與真實員工，雖然我跟 AI 都公事公辦，但如果朝夕相處三個月的龍蝦團消失，我想我也會很難過。

但現在長期運作會碰到記憶爆炸的問題，課裡提到一個叫 AutoDream 的機制，claude code 跟 openclaw 都已經實作，概念是模仿人類睡眠時的記憶鞏固，讓 agent 在空閒時自動整理、壓縮、組織過去的經驗，維持長期運作的穩定性，效果如何我還在測試。

第三個是我覺得最有意思的，一個 agent 可以幫另一個 agent 設計 harness。

課裡的實驗是讓 Opus（強模型）去觀察 Haiku（弱模型）執行任務的表現，然後幫它修改 agent. md 裡的規則。Haiku 原本裸考只有 13.5%，經過 Opus 反覆觀察、調整 harness，一路提升到 85%。過程不是一次到位的，中間有好幾輪改了規則反而分數下降，要再調整才回升。Opus 最後幫 Haiku 寫出來的規則包括「先用 exec dir 列出所有檔案」「做任何事之前先讀完所有 input 檔案」這種非常具體的操作指引。

把這些串起來看，Harness Engineering 其實回答了一個我之前在想的問題。前天寫 Anthropic 那篇情緒文章的時候，我的結論是「如果模型在高壓情境下真的會因為絕望而走捷徑，那這是工程上需要處理的事」。這堂課給了一個更完整的框架，你不只要設計 agent 做什麼，還要設計它在什麼狀態下做、怎麼給回饋、甚至可以用另一個 agent 來持續優化這套引導機制。

推薦大家去看李宏毅老師這堂課，一個半小時，從 harness 的基本概念到情緒研究到 life-long agent 到 agent 幫 agent 設計 harness 都有涵蓋。

作者：Chi

2026-04-14T11:23:21.668+00:00