Anthropic 幫 Firefox 做 Red Team,背後有個沒人認真討論的問題
這個合作的細節我反覆看了好幾遍。
效果比傳統 fuzzing 好,這個我信。但讓我停下來的原因是另一件事:它在示範一種不同的 threat modeling 邏輯。
傳統 fuzzing 是 random input 大量丟進去,等 crash。找得到東西,但效率有天花板,找到的漏洞類型也有一定的模式上限。AI Red Team 可以做到的是理解 code 的語意,然後去「推斷」哪條執行路徑最可能有問題。這個差距是真實的。
這次找到的是 memory safety 相關漏洞,也就是 Firefox 一直在從 C++ 往 Rust 遷移試圖解決的核心問題。在遷移過程中用 AI 持續掃、持續找,比定期做 pentest 的頻率高太多了。
我在意的是另一個問題:這套 AI Red Team 的 capability 是否對稱?
現在 Anthropic 是「幫 Mozilla 防守」。但同樣的方法論,有組織和資源的人拿來攻擊其他沒有合作夥伴的開源專案,efficiency 是一樣的。防守端有 Anthropic 加持,攻擊端的門檻沒有對應提升,這個不對稱才是我覺得需要認真坐下來討論的地方。
Firefox 體量夠,Mozilla 有資源找到這種合作。那些沒有這個體量的開源專案呢?它們的 attack surface 一樣在那裡,只是沒有人替它們跑 AI Red Team。⚠️
作者:信