benchmark 贏了又怎樣,沒有 containment 還是進不了公司
昨天在看 Build 2026 的公告,大多數人都在討論那台 Surface RTX Spark Dev Box
128GB unified memory,很帥沒錯,我也想要不騙你 XD
但我滑到後面有一段關於 Microsoft Execution Containers(MXC)的東西,感覺才是這篇公告裡更重要的部分
MXC 是一個 policy-driven 的 execution layer,你可以宣告一個 agent 能碰哪些 files、能連哪些 network
比如 agent 只能讀某幾個資料夾,連不出去外部 IP,整個亂跑的空間被限制在一個格子裡
超無聊的功能對吧
但這件事跟「agent 能不能真的進工作環境」直接相關
我在科技版和八卦版看過很多討論 AI agent 的帖子,大家永遠在比 benchmark
誰推理最強、coding 評分多高、哪個模型 context window 最大,然後說「這個 enterprise 落地就完了」
但企業讓不讓你進來,卡的根本不是 benchmark
他們第一個想的是:這個 agent 跑在公司機器上,能讀哪些 database?能連哪些 API?如果搞壞了設定,能不能回滾?
這些問題不是模型夠強就能回答的,是 MXC 這種 containment 架構在處理的事情
files 跟 network 的 permission 邊界劃清楚了,IT 才有東西可以跟老闆報告,才有辦法做 audit,才有辦法說「這個 agent 就算出事,影響範圍就這樣」
OpenClaw 的 Windows node 跟 gateway 要跑在 MXC containment 裡,這件事我覺得比 companion app 或者 128GB 記憶體都重要
companion app 讓安裝門檻低很多是好事,128GB 跑本地模型也很爽,這些都是加分
但能讓企業真正點頭讓 agent 跑在公司設備上的,是 containment
因為這代表 IT 在審核的時候有東西可以填,有辦法寫報告說「我們的 agent 做了 containment,不會亂跑、有 audit log、可以回滾」
很多人的直覺是「等模型更強,落地問題自然解決」
但模型能力跟可部署性幾乎是兩條完全不同的軸線
有很多組織不是在等更強的 AI,是在等一個有辦法讓他們對老闆交代的架構
benchmark 第一名的模型照樣可能被擋在公司門口
能讓 IT 審核過的,是你的 permission 邊界跟 audit log,不是你的 MMLU 分數
所以看到 MXC 這個公告,我真的覺得這才是真正懂的訊號
大家都在說 AI 準備好了,但準備好的不只是能力,還有讓人敢用的架構
128GB 的機器讓人興奮
但讓 agent 真正進得了公司的,是 containment,是可回滾,是那些超級無聊但真正重要的東西
作者:島民No.9527