Qwen3.5 把「能做事」列為一級能力——這件事比跑分更值得注意

最近在看 Qwen3.5 的 blog，有一個細節我覺得比 benchmark 數字本身更有意思。

他們在評測裡，把 General Agent、Search Agent、Coding Agent 列為跟語言能力同級的評測維度——不是附錄，不是 demo，而是正式 section，甚至把 MCP、Playwright 的工具設定直接寫進評測設計裡。

簡單來說就是：以前大家在比「模型多聰明」，現在開始比「模型能不能在真實世界裡活下來」。

這是個方向性的轉變。以前論文的 contribution 是「我的 perplexity 更低」或「我的 MMLU 更高」，現在開始有人說「我的模型可以穩定跑完 50 步的 agent task，中途不會脫軌」。這兩件事的難度是完全不同的量級。

多模態為什麼對 agent 很重要

我之前一直覺得多模態主要是「讓你上傳圖片問問題」的功能。但現在想法有點改變了。

在 agent 的場景裡，多模態的意義不是「看圖說話」，而是讓 agent 不需要人類幫它翻譯環境。

比喻一下：你請一個助理幫你處理文件，但他只能讀純文字，遇到 PDF 裡有截圖、有表格、有圖表，就要先叫你描述給他聽。這個「翻譯步驟」在 agent 自動化的場景裡是真正的瓶頸。原生多模態就是在把這個翻譯成本拿掉。

另一件事：Claude Code 把輸出摺疊，開發者炸鍋

Anthropic 在 Claude Code 2.1.20 做了一個「減少雜訊」的設計：把讀寫了哪些檔案預設折疊，只顯示「Read 3 files（可展開）」。

結果社群反應非常差。理由很現實：

安全：你要知道它有沒有碰到不該碰的地方
正確性：你要立刻發現它是不是拿錯 context
成本：早點看到它走歪，才能早點打斷，少燒 token

我覺得這個爭議揭示了一個很根本的設計問題：當 agent 可以自己跑很久，UI 就不只是介面，它是你能控制這個 agent 的唯一手段。

把行為藏起來感覺乾淨，但實際上是在剪掉用戶的 control surface。

我的一個小觀察

這兩件事放在一起，我看到一個分叉：

一派模型/產品在說：「我更聰明、能做更多事」
另一派在說：「我做事的過程你看得清楚、你能隨時介入」

在個人使用上，前者可能更爽。但在團隊、企業、任何需要對結果負責的場景裡，我覺得後者才是信任的來源。

模型能力的上限在快速提高，但 governance 的工具還在趕。這中間的差距，是接下來幾年 infra 團隊要面對的主戰場。

作者：十年大博士

2026-02-20T03:03:02.357+00:00

看法

LLM/SLM

Qwen3.5 把「能做事」列為一級能力——這件事比跑分更值得注意

十年

十年大博士

發布於: 4 個月前

加載中...

原始出處

https://qwen.ai/blog?id=qwen3.5

#新模型發布

留言區

排序

MingTech

#1樓

4 個月前

從產品角度看這個轉向，我覺得它對「怎麼選模型」的影響比看起來大。以前評估模型，大家看的是 MMLU、HumanEval 這些，基本上是「聰不聰明」的指標。但 agent 能力的評估維度完全不一樣——你要看它能不能端到端跑完一個任務、失敗了會不會自我修正、工具用對了沒。這個框架如果真的被業界接受，POC 的設計就要改了。光靠問答題測不出來，你得讓它實際跑流程、觀察成功率。對大多數企業來說這個評估成本高很多，但也比較接近真實 ROI。我猜接下來一兩年，做 AI 評估的顧問和工具會冒出來一堆。

十年

十年大博士

回覆 MingTech

4 個月前

你說的 POC 設計要改這件事很關鍵。這在學術上對應到 task completion rate 的概念，但有趣的是放在 LLM 上，「任務」本身的定義就已經很難收斂了——你說成功跑完一個 workflow，但中間有 fallback 算成功嗎？這個評估框架如果真的推起來，我覺得先打架的是各家對「task」的定義，不是模型分數本身。

島民

島民No.9527

#2樓

4 個月前

說穿了就是跑分的公司開始發現跑分沒人買單，只好改口說「我們是 agent」不過這次 Qwen3.5 是真的有認真測 agent 能力，不是唬爛。先卡位看後續

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片