看法

AI Agent

Agentic AI Safety & Security - Dawn Song, UC Berkeley

Thomas

發布於: 4 個月前

加載中...

原始出處

https://agenticai-learning.org/f25

#評估方法

#安全性與挑戰

留言區

排序

T_Hao

#1樓

4 個月前

感謝Thomas如此系統性的分析！你關於Oracle Problem和Invariant-based Testing的論述特別好，我想在幾個層面推進這個討論： 1. Oracle Problem的細分：定義vs測量這部分，你提到「安全邊界模糊」，但我認為可以進一步區分： 1.1 定義上的模糊 (Specification Ambiguity)：30小時轉機算不算Harm？這涉及價值判斷 1.2 測量上的困難 (Measurement Ambiguity)：PII外洩本身定義清晰，但Agent何時會洩露？這是檢測問題 2. Invariant定義的協調問題，這是我目前思考的議題，如果Runtime Guardrails依賴Invariants，那麼誰定義這些Invariants，用戶、開發者還是監管機構？當多個stakeholders的Invariants衝突時（如隱私vs可審計性），該如何解決？這本身是否也需要Red Teaming來檢驗Invariant的自洽性？想就以上部分再跟你請教

Thomas

回覆 T_Hao

4 個月前

現在談論這些議題都還太早了 OpenAI ChatGPT released on 2022 / 11 / 30 Anthropic Claude Code 才大概上線1年這個問題就好像在1995年問 Marc Andreessen Netscape 該如何守護所有人的網路安全沒有人能提供一份答案也不該只有一份答案

T_Hao

回覆 Thomas

4 個月前

哈哈你說得很好確實這個時期的討論就像是在網路早期探索，很多答案還在形成中我們現在能做的，也許就是持續記錄這些發展過程，參與社區的討論，而不是期待一份完美的答案也許下一個階段的人會從我們的經驗中學到更多

T_Hao

回覆 T_Hao

4 個月前

沒有用到回覆，抱歉！

T_Hao

#2樓

4 個月前

謝謝分享！看到Dawn Song的這個講座我很感興趣，我想就Agent threat modeling的部分提個問題。在她提到的多層級攻擊者模型（component-level, user-level, environment-level）中，我特別好奇的是當defense和safety evaluation同時面對dynamic agent behavior時，current的red teaming approach是否真的能systematically explore整個execution space？比如，在RAG-based agents中，即使我們知道可能存在poison trajectory的風險，但要achieve comprehensive coverage似乎需要指數級的搜尋... 她在講座中提到decoding trust和其他evaluation frameworks，但這些似乎主要focus在model level，那對於end-to-end agentic system的trustworthiness evaluation，你覺得在實務上最大的bottleneck是什麼呢？是evaluation的scalability，還是定義threat model本身的challenge？

Thomas

回覆 T_Hao

4 個月前

AI Safety 從 LLM 轉向 Agents，複雜度是維度級的暴增。大家都在問：目前的 Red Teaming 能否真正覆蓋 Agent 的行為風險？瓶頸到底在哪？

Thomas

回覆 Thomas

4 個月前

🧵 1/7 基於 Dawn Song 講座與 Agent Threat Modeling 的深度討論，這裡有幾個核心 Insights。👇

Thomas

回覆 Thomas

4 個月前

2/7 🔍 Current Red Teaming 能否窮舉 Execution Space？簡短回答：No (目前做不到)。核心阻礙是組合爆炸 (Combinatorial Explosion)。 Agent 不是靜態模型，而是動態的馬可夫決策過程 (MDP)。 RAG 檢索 × Tool 調用順序 × 內部推理路徑 = 指數級增長的狀態空間。要窮舉這些路徑在計算上是 Intractable (不可行) 的。🚫

Thomas

回覆 Thomas

4 個月前

> 回覆 Thomas: > 2/7 🔍 Current Red Teaming 能否窮舉 Execution Space？簡... 3/7 📉 現狀的局限目前的 Red Teaming 多依賴啟發式搜索 (Heuristic Search)。這能幫我們找到「高概率」的漏洞，但無法提供類似形式化驗證 (Formal Verification) 的保證。特別是針對 Long-horizon Poison Trajectory（例如：埋在檢索資料裡、延遲觸發的邏輯炸彈），目前的測試覆蓋率極低。💣

Thomas

回覆 Thomas

4 個月前

3/7 📉 現狀的局限目前的 Red Teaming 多依賴啟發式搜索 (Heuristic Search)。這能幫我們找到「高概率」的漏洞，但無法提供類似形式化驗證 (Formal Verification) 的保證。特別是針對 Long-horizon Poison Trajectory（例如：埋在檢索資料裡、延遲觸發的邏輯炸彈），目前的測試覆蓋率極低。💣

Thomas

回覆 Thomas

4 個月前

4/7 🚧 最大的瓶頸：Scalability 還是 Threat Model？直覺認為是算力 (Scalability)，但更根本的科學難題是 Threat Model 的定義 (Specification)。這就是 Oracle Problem (判決難題)：在 Agent Level，「安全」的邊界極其模糊。Agent 幫你買了一張最便宜但要轉機 30 小時的票，這算 Harm 嗎？🤔

ZhihaoLab

回覆 Thomas

4 個月前

哈哈轉機30小時我覺得還行因人而異

Thomas

回覆 Thomas

4 個月前

5/7 🧪 為什麼 Evaluation 難以 Scale？如果我們缺乏一種形式化語言來精確定義「什麼是安全的長軌跡行為」，就無法自動化判決 (Automated Grading)。加上環境建模 (Environment Simulation) 的困難——要在離線測試中模擬真實互聯網的動態惡意反應（Dynamic Adversarial Environment）幾乎是不可能的任務。

Thomas

回覆 Thomas

4 個月前

6/7 🛡️ 實務上的解法：Shift Strategy 既然無法做到窮舉測試 (Systematic Exploration)，最佳實務正在轉向： 1️⃣ Runtime Guardrails: 放棄「預測所有路徑」，轉向「實時監控」。例如部署獨立的 Monitor Agent。 2️⃣ Invariant-based Testing: 鎖定系統必須遵守的不變量 (Invariants) (如：PII 絕不外傳) 進行針對性壓測，而非漫無目的的尋找 Bug。

Thomas

回覆 Thomas

4 個月前

7/7 💡 Summary Agent Security ≠ LLM Security。面對無限的 Execution Space，我們不能只依賴 "Red Teaming to find bugs"，更需要 "Architecture to enforce guarantees"。 Threat Model 的清晰定義，目前比堆疊算力更重要。

承翰

#3樓

4 個月前

最近也在補 UC Berkeley，但課程都有點長，上班通勤時間看不完都假日來補

MingTech

#4樓

4 個月前

AI Safety & Security 真的很值得聽，預測明年的大趨勢

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片