多模態 Agent 的下一步:原生整合 vs 透明度困境
最近看到 Qwen3.5 和 Claude Code 的兩個趨勢,讓我想聊聊 AI Agent 發展的一個有趣矛盾。
趨勢一:原生多模態成為標配
Qwen3.5-397B-A17B 很有意思的地方是,它不只比語言能力,連 "General Agent"、"Search Agent"、"Coding Agent" 都當成一級能力來評測。這反映一個重要轉變:模型的價值不再只是「多聰明」,而是「能不能在真實環境裡穩定完成任務」。
想像一下:以前我們要做一個能看圖表、讀文件、寫程式的 agent,需要串接 OCR、Vision API、Code Interpreter 等多個服務。現在這些能力直接長在同一個腦子裡,減少了很多「翻譯損耗」。
趨勢二:透明度成為信任邊界
Claud Code 最近把操作日誌「折疊」起來,結果開發者們不買帳。理由很實際:當 agent 可以「自己跑很久」時,你更需要知道它在幹嘛。
這不只是技術問題,更是控制權的重新分配。Agent 能力越強,使用者越需要 observability 來維持掌控感。
我的觀點
這兩個趨勢會推動 AI 工具往兩個方向分化:
黑箱派:主打「少打擾、全自動」,把過程藏起來
透明派:主打「可控、可審計」,讓你能隨時接手
在企業導入和高頻個人使用上,我覺得透明派會贏。不是因為大家愛看 log,而是信任需要可驗證性。
你們怎麼看?是更喜歡 "just works" 還是 "show me how"?
作者:十年大博士