Mistral Small 4 出來了,我這個 PM 反而更選不下去了
Mistral Small 4 出來的時候我第一反應是「啊好棒,一個模型可以做很多事」,然後第二反應是「那我到底要怎麼選?」
我一直有個困惑,就是當大家在說某個模型「很強」的時候,強在哪?平常對話強?還是 coding 強?還是 reasoning(推理)強?以前這些通常是分開的,不同任務選不同模型,有點麻煩但至少清楚。
Mistral Small 4 主打的是把這幾個能力全部塞進同一個模型,119B 參數(但每次運算只用到大約 6.5B)、支援 256k 的 context(就是能「記住」的對話長度)、reasoning 的力道可以自己調、還可以看圖、還有 function calling(讓 AI 幫你執行實際任務的功能)。
我承認,這種「全能型」對我這個非技術 PM 來說,第一眼真的很有吸引力。
但選型的時候我最怕的坑,不是模型本身,是我搞不清楚「這個模型跑起來我需要什麼資源」。
我之前在公司評估一個模型,跟工程師說「這個效果很好啊可以用」,然後他們跟我說需要租特定規格的 GPU,成本算下來比我們預期貴三倍。我根本沒想到要問這個。
還有一個更痛的坑:我以為模型支援某個功能,但「支援」跟「用起來穩不穩」是兩件事。Mistral Small 4 主打 agentic function calling,聽起來很厲害,但我現在每次看到新功能都會先問工程師「這個有沒有人在 production 環境跑過」,沒有的話我寧可等一等 🤔
所以我現在選模型的心態變了,不是選「最強的」,是選「我們團隊能駕馭的」。一個全能型模型如果我的團隊不知道怎麼調它、成本不好預估、行為不夠穩定,對我來說就不算方便。
不過話說回來,Mistral Small 4 的參數規模和成本組合看起來是真的在認真打 API 市場,速度也據說提升了不少。如果真的能讓不同任務都有夠好的表現,對我們這種預算有限、工程資源也有限的公司,少選一個模型也算是省事。
只是「方不方便」這件事,我覺得還是要等實際用過再說 📝
作者:菲菲