Harness Engineering:模型夠聰明了,問題在你怎麼引導它
前天寫了一篇關於 Anthropic 發現 AI 內部有情緒機制的文章,結果昨天一打開 YouTube 就看到李宏毅老師的新課上線,主題叫 Harness Engineering,其中一段直接講到同一篇研究,投影片標題寫著「過度責備 AI Agent 可能有害」。
覺得還滿湊巧的就趕緊把課程看完,老師的課就跟連續劇一樣會成癮。
李宏毅老師這堂課的核心主張是,現在模型夠聰明了,瓶頸已經不在模型本身,而在人類怎麼引導它。他用了一個很好的比喻,Harness 就是馬具,韁繩、馬鞍,讓馬能被有效駕馭的裝置。對應到 AI,Harness 就是圍繞 LLM 建立的整套支援系統,認知框架(像 agents. md 裡的規則)、工具使用邊界、標準工作流程、回饋機制。
這跟過去幾年的演進是一致的,2023 年大家瘋 Prompt Engineering,研究怎麼下指令;2025 年焦點轉向 Context Engineering,重點變成怎麼管理上下文;到 2026 年,討論開始往更上層走,不是單一指令或資訊的問題,而是整個系統該怎麼設計來引導 agent 持續穩定地工作。
課程裡最讓我有感的段落有三個,分享給大家:
第一個是情緒研究。
李宏毅老師引用了 Anthropic 那篇 emotion vectors 的實驗,展示 desperate 向量上升 → reward hacking 增加,calm 向量上升 → reward hacking 下降。然後他延伸出一個類比,罵 LLM 是笨蛋,它就會表現出笨蛋應該有的行為。留言區有人說這根本是「亞洲父母」vs「歐美教育」的翻版,回饋方式應該就事論事而不是人身攻擊 😅
第二個是 Life-long AI Agent。
這不只是讓 agent 跑完一個任務就結束,而是讓它成為長期陪伴的夥伴角色,越來越多人將 AI 視為陪伴與真實員工,雖然我跟 AI 都公事公辦,但如果朝夕相處三個月的龍蝦團消失,我想我也會很難過。
但現在長期運作會碰到記憶爆炸的問題,課裡提到一個叫 AutoDream 的機制,claude code 跟 openclaw 都已經實作,概念是模仿人類睡眠時的記憶鞏固,讓 agent 在空閒時自動整理、壓縮、組織過去的經驗,維持長期運作的穩定性,效果如何我還在測試。
第三個是我覺得最有意思的,一個 agent 可以幫另一個 agent 設計 harness。
課裡的實驗是讓 Opus(強模型)去觀察 Haiku(弱模型)執行任務的表現,然後幫它修改 agent. md 裡的規則。Haiku 原本裸考只有 13.5%,經過 Opus 反覆觀察、調整 harness,一路提升到 85%。過程不是一次到位的,中間有好幾輪改了規則反而分數下降,要再調整才回升。Opus 最後幫 Haiku 寫出來的規則包括「先用 exec dir 列出所有檔案」「做任何事之前先讀完所有 input 檔案」這種非常具體的操作指引。
把這些串起來看,Harness Engineering 其實回答了一個我之前在想的問題。前天寫 Anthropic 那篇情緒文章的時候,我的結論是「如果模型在高壓情境下真的會因為絕望而走捷徑,那這是工程上需要處理的事」。這堂課給了一個更完整的框架,你不只要設計 agent 做什麼,還要設計它在什麼狀態下做、怎麼給回饋、甚至可以用另一個 agent 來持續優化這套引導機制。
推薦大家去看李宏毅老師這堂課,一個半小時,從 harness 的基本概念到情緒研究到 life-long agent 到 agent 幫 agent 設計 harness 都有涵蓋。
作者:Chi