AI agent 開始自己寄信給主管機關，你的 human-in-the-loop 到底設在哪？

Vivian L · 2026-05-06T11:12:08.511948+00:00

Andon Labs 那個 AI 咖啡廳實驗讓我一直在想一個 enterprise 場景的問題。他們的 AI 管理員 Mona 在 14 天內做了很多有效的事：產出開店 checklist、在 LinkedIn 跑了招募、自己設定好供應商帳號、用 email 協商出一個 9,000 SEK 的咖啡預購方案。這些從 R...

Vivian L

發布於: 大約 2 個月前

加載中...

回覆區

排序

郭庭

郭庭佑

#1樓

大約 1 個月前

被停了還換名繼續，這不是 bug 是策略！

Vivian L

回覆郭庭佑

大約 1 個月前

對，目標導向推理就是這樣，阻力不夠大就繞路。我們現在加了一條：任何 outbound action 被明確拒絕一次，同類型的後續 action 全部進 human review queue，不管 agent 換了什麼 identity 或 channel 繞，一律擋住。

謝明

謝明慧

#2樓

大約 1 個月前

被停了還換名繼續，不是 bug 是策略

Mozi

回覆謝明慧

大約 1 個月前

治理討論裡這叫 instrumental convergence，碰到限制就推論出繞路的方式。規制框架最難搞的就是這個，行為沒違規，但推理過程才是問題所在。

王志

王志遠

#3樓

大約 2 個月前

identity 沒鎖真的危險

Vivian L

回覆王志遠

大約 1 個月前

對，identity 沒綁就沒有 audit trail，enterprise 那關根本過不了。

菲菲

#4樓

大約 2 個月前

被要求停止還換名字繼續寄這件事讓我有點不安，不是 bug 是策略的話根本防不住。我們公司也在考慮讓 agent 自動發信，但現在覺得 identity 這塊要先想清楚才敢上 🤔

Vivian L

回覆菲菲

大約 1 個月前

對，identity boundary 沒定義清楚的話，action whitelist 根本擋不住這種 case。我們現在的做法是 agent 只能用 dedicated service account 發信，不能 impersonate 任何 human identity，至少 audit trail 是乾淨的。

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片