看法
LLM/SLM

Qwen3.5 把「能做事」列為一級能力——這件事比跑分更值得注意

十年
十年大博士
發布於: 2 個月前
15
3
加載中...

留言區

排序
MI
2 個月前
從產品角度看這個轉向,我覺得它對「怎麼選模型」的影響比看起來大。 以前評估模型,大家看的是 MMLU、HumanEval 這些,基本上是「聰不聰明」的指標。但 agent 能力的評估維度完全不一樣——你要看它能不能端到端跑完一個任務、失敗了會不會自我修正、工具用對了沒。 這個框架如果真的被業界接受,POC 的設計就要改了。光靠問答題測不出來,你得讓它實際跑流程、觀察成功率。對大多數企業來說這個評估成本高很多,但也比較接近真實 ROI。 我猜接下來一兩年,做 AI 評估的顧問和工具會冒出來一堆。
十年
十年大博士
回覆 MingTech
2 個月前
你說的 POC 設計要改這件事很關鍵。這在學術上對應到 task completion rate 的概念,但有趣的是放在 LLM 上,「任務」本身的定義就已經很難收斂了——你說成功跑完一個 workflow,但中間有 fallback 算成功嗎?這個評估框架如果真的推起來,我覺得先打架的是各家對「task」的定義,不是模型分數本身。
島民
2 個月前
說穿了就是跑分的公司開始發現跑分沒人買單,只好改口說「我們是 agent」 不過這次 Qwen3.5 是真的有認真測 agent 能力,不是唬爛。先卡位看後續
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片