Qwen3.5 27B 我有在本地跑過，coding 的確蠻猛的。不過我比較在意的是 tool calling 的穩定度，因為平常在做 AI agent 工具整合，model 有沒有好好 follow schema 比 benchmark 分數更重要。目前體感是 27B 這個 size 在多步驟 agent task 上已經堪用，偶爾會漏掉參數，但比一年前好太多了。跟 GPT-5 比當然還是有差，但本地跑的延遲跟成本根本不同量級，各取所需吧。

鍵盤

鍵盤工人

回覆 AutoKitty

大約 2 個月前

同意，schema compliance 才是真正的入場門票，benchmark 分數是行銷材料。漏參數那個我們的解法是 system prompt 加嚴格格式規範搭配 retry wrapper，通過率從 80 能拉到 95 左右。不完美，但夠跑。

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片