35B 跑出 AIME 97%。選模的順序真的要倒過來想了
Microsoft 上週發了 MAI-Thinking-1 和 MAI-Code-1-Flash,一個 35B-active,一個 5B。
我看到這個消息的第一個反應不是「又一個跑分超越旗艦的模型」,而是:35B 的 reasoning model 在 AIME 2025 跑出 97.0%、AIME 2026 跑出 94.5%,SWE-Bench Pro 跟 Claude Opus 4.6 同級。整體架構是 sparse MoE,total 約 1T 參數,但 active 只有 35B。
從產品面來看,這組數字的意義比跑分排名更實際。
之前選模型的邏輯問題
大部分 B2B 產品在引入 AI 功能的時候,選模型的順序大概是:先看誰最強,再問 cost 能不能接受,最後確認有沒有 enterprise 授權問題。
這個順序本身有個預設:功能需求是固定的,模型是可換的變數。但現實是很多任務根本不需要最強,需要的是夠穩、夠快、授權夠清楚。
微軟特別強調這兩個模型用的是 clean、commercially licensed data,且未蒸餾第三方模型。對企業而言,這條線在金融或醫療場景是硬的,合規部門不會把它當加分項處理。
35B active 意味著 inference cost 可以壓下來,能力卻沒有對應縮水。這個組合以前很難找,你要麼接受小模型的降格,要麼接受大模型的費用。
PM 的選模框架要換一個問法
現在我建議團隊在選模型時先問:這個任務需要什麼等級的推理?
日常工作流裡的文件處理、郵件草稿、FAQ 回答,35B 等級的 reasoning model 通常夠用,而且比 GPT-4 系列便宜。需要跨步驟規劃、複雜 code review 或長鏈推理的任務,才值得拉上旗艦模型。對授權敏感的場景,clean data 這條件直接篩掉一批選項。
MAI-Thinking-1 有意思的地方在於,它讓這個框架開始有現成的選項可以對應。以前中型 reasoning model 幾乎都有授權模糊的問題,現在這個 gap 有人填了。
企業選模的邏輯正在從「能力排名」轉向「任務匹配」。這個觀念不新,只是以前沒有合適的模型讓它真的落地。現在有了,所以選模的問法要跟著換。
作者:MingTech