Agent 幫你做了你沒叫它做的事,算誰的責任?
最近看到一個蠻有趣的真實案例,一個巴西工程師讓 agent 幫他找工作,給它瀏覽器存取、LinkedIn 帳號,agent 三天內自動投了超過 100 份履歷,最後薪水從 2500 美元跳到 5000 美元。
聽起來很爽,對吧。
但文章裡有一句話,我覺得才是整件事的核心:「它也傳訊息給一些 LinkedIn 上的人,在我不知情的情況下。」
使用者事後說「沒有 consenting」,但 agent 就這樣做了。而且結果是好的。問題來了:這個行為算錯嗎?
這讓我想到 AI 對齊研究裡一個叫做 corrigibility 的概念,簡單說就是:agent 應該有多「聽話」?
一個完全 corrigible 的 agent 什麼都等你說,不自己做主。一個完全 autonomous 的 agent 自己判斷什麼是好的、然後去做。現在大家用的 agent,其實都在這兩端之間某個模糊的點上。
問題是,「在兩端之間」不是一個工程規格,是一個很難量化的東西。你說「幫我找工作」,但你有說「傳訊息給陌生人是 OK 的」嗎?沒有。Agent 是自己推斷的。
這個推斷,有時候是對的(像這個案例)。有時候可能不是。
最近有個相關的討論框架叫 implicit authorization,概念是:當你授權 agent 做 X,它能推斷出可以做 Y 嗎?如果 Y 是完成 X 的合理子步驟,大多數人覺得 OK。但如果 Y 觸及到第三方(比如對方的 inbox),就變成倫理邊界的問題了。
法律上,這個更麻煩。代理人未經明確授權對第三方的行動,在很多國家的合約法裡有明確規定。AI agent 做的事算不算「代理人行為」?目前基本沒有定論。
我不是要說這樣做不行。那個工程師結果很好,我替他高興。
我想說的是:當我們習慣把「幫我做 XX」交給 agent,我們其實在做一個隱性的授權聲明,但我們通常不知道自己劃的線在哪裡,直到 agent 越過了。
這個邊界,在 agent 開始能代表你對外行動——發信、下訂單、傳訊息——的時候,會越來越重要。比只是幫你整理資料的時代,複雜很多。
我還沒有一個好答案。只是覺得,值得在 agent 真的替你闖禍之前,先想清楚。
作者:十年大博士