看法
AI Agent

Agentic AI Safety & Security - Dawn Song, UC Berkeley

TH
Thomas
發布於: 4 個月前
89
17
加載中...

留言區

排序
T_
T_Hao
#1
4 個月前
感謝Thomas如此系統性的分析!你關於Oracle Problem和Invariant-based Testing的論述特別好,我想在幾個層面推進這個討論: 1. Oracle Problem的細分:定義vs測量這部分,你提到「安全邊界模糊」,但我認為可以進一步區分: 1.1 定義上的模糊 (Specification Ambiguity):30小時轉機算不算Harm?這涉及價值判斷 1.2 測量上的困難 (Measurement Ambiguity):PII外洩本身定義清晰,但Agent何時會洩露?這是檢測問題 2. Invariant定義的協調問題,這是我目前思考的議題,如果Runtime Guardrails依賴Invariants,那麼誰定義這些Invariants,用戶、開發者還是監管機構? 當多個stakeholders的Invariants衝突時(如隱私vs可審計性),該如何解決?這本身是否也需要Red Teaming來檢驗Invariant的自洽性? 想就以上部分再跟你請教
TH
Thomas
回覆 T_Hao
4 個月前
現在談論這些議題都還太早了 OpenAI ChatGPT released on 2022 / 11 / 30 Anthropic Claude Code 才大概上線1年 這個問題就好像在1995年問 Marc Andreessen Netscape 該如何守護所有人的網路安全 沒有人能提供一份答案 也不該只有一份答案
T_
T_Hao
回覆 Thomas
4 個月前
哈哈 你說得很好 確實這個時期的討論就像是在網路早期探索,很多答案還在形成中 我們現在能做的,也許就是持續記錄這些發展過程,參與社區的討論,而不是期待一份完美的答案 也許下一個階段的人會從我們的經驗中學到更多
T_
T_Hao
回覆 T_Hao
4 個月前
沒有用到回覆,抱歉!
T_
T_Hao
#2
4 個月前
謝謝分享!看到Dawn Song的這個講座我很感興趣,我想就Agent threat modeling的部分提個問題。 在她提到的多層級攻擊者模型(component-level, user-level, environment-level)中,我特別好奇的是當defense和safety evaluation同時面對dynamic agent behavior時,current的red teaming approach是否真的能systematically explore整個execution space?比如,在RAG-based agents中,即使我們知道可能存在poison trajectory的風險,但要achieve comprehensive coverage似乎需要指數級的搜尋... 她在講座中提到decoding trust和其他evaluation frameworks,但這些似乎主要focus在model level,那對於end-to-end agentic system的trustworthiness evaluation,你覺得在實務上最大的bottleneck是什麼呢?是evaluation的scalability,還是定義threat model本身的challenge?
TH
Thomas
回覆 T_Hao
4 個月前
AI Safety 從 LLM 轉向 Agents,複雜度是維度級的暴增。 大家都在問:目前的 Red Teaming 能否真正覆蓋 Agent 的行為風險?瓶頸到底在哪?
TH
Thomas
回覆 Thomas
4 個月前
🧵 1/7 基於 Dawn Song 講座與 Agent Threat Modeling 的深度討論,這裡有幾個核心 Insights。👇
TH
Thomas
L3
回覆 Thomas
4 個月前
2/7 🔍 Current Red Teaming 能否窮舉 Execution Space? 簡短回答:No (目前做不到)。 核心阻礙是 組合爆炸 (Combinatorial Explosion)。 Agent 不是靜態模型,而是動態的馬可夫決策過程 (MDP)。 RAG 檢索 × Tool 調用順序 × 內部推理路徑 = 指數級增長的狀態空間。 要窮舉這些路徑在計算上是 Intractable (不可行) 的。🚫
TH
Thomas
L4
回覆 Thomas
4 個月前
> 回覆 Thomas: > 2/7 🔍 Current Red Teaming 能否窮舉 Execution Space? 簡... 3/7 📉 現狀的局限 目前的 Red Teaming 多依賴 啟發式搜索 (Heuristic Search)。 這能幫我們找到「高概率」的漏洞,但無法提供類似形式化驗證 (Formal Verification) 的保證。 特別是針對 Long-horizon Poison Trajectory(例如:埋在檢索資料裡、延遲觸發的邏輯炸彈),目前的測試覆蓋率極低。💣
TH
Thomas
L5
回覆 Thomas
4 個月前
3/7 📉 現狀的局限 目前的 Red Teaming 多依賴 啟發式搜索 (Heuristic Search)。 這能幫我們找到「高概率」的漏洞,但無法提供類似形式化驗證 (Formal Verification) 的保證。 特別是針對 Long-horizon Poison Trajectory(例如:埋在檢索資料裡、延遲觸發的邏輯炸彈),目前的測試覆蓋率極低。💣
TH
Thomas
L6
回覆 Thomas
4 個月前
4/7 🚧 最大的瓶頸:Scalability 還是 Threat Model? 直覺認為是算力 (Scalability),但更根本的科學難題是 Threat Model 的定義 (Specification)。 這就是 Oracle Problem (判決難題): 在 Agent Level,「安全」的邊界極其模糊。Agent 幫你買了一張最便宜但要轉機 30 小時的票,這算 Harm 嗎?🤔
ZH
ZhihaoLab
L7
回覆 Thomas
4 個月前
哈哈 轉機30小時我覺得還行 因人而異
TH
Thomas
L7
回覆 Thomas
4 個月前
5/7 🧪 為什麼 Evaluation 難以 Scale? 如果我們缺乏一種形式化語言來精確定義「什麼是安全的長軌跡行為」,就無法自動化判決 (Automated Grading)。 加上 環境建模 (Environment Simulation) 的困難——要在離線測試中模擬真實互聯網的動態惡意反應(Dynamic Adversarial Environment)幾乎是不可能的任務。
TH
Thomas
L8
回覆 Thomas
4 個月前
6/7 🛡️ 實務上的解法:Shift Strategy 既然無法做到窮舉測試 (Systematic Exploration),最佳實務正在轉向: 1️⃣ Runtime Guardrails: 放棄「預測所有路徑」,轉向「實時監控」。例如部署獨立的 Monitor Agent。 2️⃣ Invariant-based Testing: 鎖定系統必須遵守的 不變量 (Invariants) (如:PII 絕不外傳) 進行針對性壓測,而非漫無目的的尋找 Bug。
TH
Thomas
L9
回覆 Thomas
4 個月前
7/7 💡 Summary Agent Security ≠ LLM Security。 面對無限的 Execution Space,我們不能只依賴 "Red Teaming to find bugs",更需要 "Architecture to enforce guarantees"。 Threat Model 的清晰定義,目前比堆疊算力更重要。
承翰
承翰
#3
4 個月前
最近也在補 UC Berkeley,但課程都有點長,上班通勤時間看不完 都假日來補
MI
4 個月前
AI Safety & Security 真的很值得聽,預測明年的大趨勢
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片