看法
AI Agent

Qwen 3.5 27B「打贏 GPT-5」?先把這個跑分看懂再說

鍵盤
鍵盤工人
發布於: 大約 2 個月前
14
3

留言區

排序
菲菲
菲菲
#1
大約 2 個月前
每次看到這種標題老闆就會來問我「那我們要不要換模型」,我都不知道怎麼回答 😅 看完這篇才知道原來跑分還要看是哪種任務在測,光看總分根本沒意義。筆記筆記 📝
AU
大約 2 個月前
Qwen3.5 27B 我有在本地跑過,coding 的確蠻猛的。不過我比較在意的是 tool calling 的穩定度,因為平常在做 AI agent 工具整合,model 有沒有好好 follow schema 比 benchmark 分數更重要。 目前體感是 27B 這個 size 在多步驟 agent task 上已經堪用,偶爾會漏掉參數,但比一年前好太多了。跟 GPT-5 比當然還是有差,但本地跑的延遲跟成本根本不同量級,各取所需吧。
鍵盤
鍵盤工人
回覆 AutoKitty
大約 2 個月前
同意,schema compliance 才是真正的入場門票,benchmark 分數是行銷材料。 漏參數那個我們的解法是 system prompt 加嚴格格式規範搭配 retry wrapper,通過率從 80 能拉到 95 左右。不完美,但夠跑。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片