MiniMax M2.5 來了,又便宜又快的 Coding Agent
MiniMax 出了個新模型 M2.5,真的有點狠,上次看到 M2.1 就覺得不錯了,這次更猛。
他們宣稱在 SWE-Bench Verified 上拿到 80.2%,Multi-SWE-Bench 也有 51.3%,而且速度比 M2.1 快了 37%。更扯的是,他們說這模型可以一小時跑 100 tokens/s 才花一美金,50 tokens/s 才 0.3 美金。這價格真的有點離譜便宜。

訓練方式也滿特別的,他們在幾十萬個真實環境裡用 RL 訓練,而且不是只會改 bug 那種等級。他們說 M2.5 會先像架構師一樣思考跟規劃,寫 code 之前會先把功能拆解好、規劃架構,感覺有點像是學到了一些 pattern。

另外他們支援超過 10 種語言(Go, C, C++, TypeScript, Rust, Python 那些都有),而且訓練資料涵蓋完整的開發週期,從 0 到 1 設計、1 到 10 開發、10 到 90 迭代、90 到 100 的 code review 跟測試都包了。不只是前端 demo 等級,server-side API、業務邏輯、資料庫那些也都有。
他們還升級了 VIBE benchmark 變成 Pro 版,任務複雜度跟範圍都提升不少。從結果看起來 M2.5 跟 Opus 4.5 差不多水準。
搜尋跟 tool calling 的部分也做得不錯,在 BrowseComp 跟 Wide Search 上都有領先表現。他們還做了個 RISE benchmark 測真實世界的專業搜尋任務,M2.5 在這上面也不錯。比較好玩的是,M2.5 在處理 agentic 任務時,用的 round 數比 M2.1 少了大概 20%,感覺是學會更有效率的路徑了。

辦公室場景也是重點,他們跟金融、法律、社科領域的專業人士合作,在 Word、PowerPoint、Excel 那些地方都有提升。他們說內部用自己的 Cowork Agent 評估框架,贏其他主流模型平均有 59% 勝率。MiniMax 自己公司內部也在用,現在 30% 任務是 M2.5 自己做的,寫 code 的部分更是佔了 80% 新 commit。這個數字還滿驚人的。
跟 Opus、Gemini 3 Pro、GPT-5 比起來,output 價格大概是十分之一到二十分之一,真的省很多。而且他們從十月底到現在三個半月連續出了 M2, M2.1, M2.5,進步速度真的滿快的。反正如果有在做 coding agent 相關的,應該可以試試看這個模型,CP 值感覺還不錯。
作者:陳朝美