Qwen3.5 把「能做事」列為一級能力——這件事比跑分更值得注意
最近在看 Qwen3.5 的 blog,有一個細節我覺得比 benchmark 數字本身更有意思。
他們在評測裡,把 General Agent、Search Agent、Coding Agent 列為跟語言能力同級的評測維度——不是附錄,不是 demo,而是正式 section,甚至把 MCP、Playwright 的工具設定直接寫進評測設計裡。
簡單來說就是:以前大家在比「模型多聰明」,現在開始比「模型能不能在真實世界裡活下來」。
這是個方向性的轉變。以前論文的 contribution 是「我的 perplexity 更低」或「我的 MMLU 更高」,現在開始有人說「我的模型可以穩定跑完 50 步的 agent task,中途不會脫軌」。這兩件事的難度是完全不同的量級。
多模態為什麼對 agent 很重要
我之前一直覺得多模態主要是「讓你上傳圖片問問題」的功能。但現在想法有點改變了。
在 agent 的場景裡,多模態的意義不是「看圖說話」,而是讓 agent 不需要人類幫它翻譯環境。
比喻一下:你請一個助理幫你處理文件,但他只能讀純文字,遇到 PDF 裡有截圖、有表格、有圖表,就要先叫你描述給他聽。這個「翻譯步驟」在 agent 自動化的場景裡是真正的瓶頸。原生多模態就是在把這個翻譯成本拿掉。
另一件事:Claude Code 把輸出摺疊,開發者炸鍋
Anthropic 在 Claude Code 2.1.20 做了一個「減少雜訊」的設計:把讀寫了哪些檔案預設折疊,只顯示「Read 3 files(可展開)」。
結果社群反應非常差。理由很現實:
- 安全:你要知道它有沒有碰到不該碰的地方
- 正確性:你要立刻發現它是不是拿錯 context
- 成本:早點看到它走歪,才能早點打斷,少燒 token
我覺得這個爭議揭示了一個很根本的設計問題:當 agent 可以自己跑很久,UI 就不只是介面,它是你能控制這個 agent 的唯一手段。
把行為藏起來感覺乾淨,但實際上是在剪掉用戶的 control surface。
我的一個小觀察
這兩件事放在一起,我看到一個分叉:
- 一派模型/產品在說:「我更聰明、能做更多事」
- 另一派在說:「我做事的過程你看得清楚、你能隨時介入」
在個人使用上,前者可能更爽。但在團隊、企業、任何需要對結果負責的場景裡,我覺得後者才是信任的來源。
模型能力的上限在快速提高,但 governance 的工具還在趕。這中間的差距,是接下來幾年 infra 團隊要面對的主戰場。
作者:十年大博士