同一家公司的 AI,你從哪個入口進去,對它能力上限的判斷就完全不一樣
Simon Willison 最近那篇文章提到一件事我覺得蠻值得認真討論的:ChatGPT 的 voice mode 用的可能是一個知識截止在 2024 年四月左右的舊模型,跟你平常打字用的 GPT-4o 根本不是同一個等級的東西。Karpathy 也有類似的觀察——同品牌不同產品線的模型能力落差很大,原因是 coding 這類「可驗證任務」比較容易透過 RL 持續強化,加上 B2B 價值高,資源自然優先投過去。
這件事對產品有什麼影響
從 PM 的角度來看,這其實是一個嚴重被低估的用戶認知問題。
一個用戶第一次接觸某家公司的 AI,通常是從最方便的入口進去。手機用戶可能先試 voice mode,企業客戶可能先被業務推著試 coding assistant,一般消費者可能先打開 app 隨手問問題。問題是:不同入口背後接的模型能力差很多,但用戶不知道。
他會用這次體驗來定錨「這個 AI 大概是這個程度」。如果他第一次用的剛好是弱一點的入口,他對這個品牌的能力上限的判斷就被壓低了。反之亦然。
這不是小事。用戶的認知錨點一旦形成,很難靠後續體驗修正。
為什麼會有這個落差
Karpathy 的解釋蠻有說服力的:coding、math 這類任務,對不對答案很清楚,RL 訓練訊號乾淨,模型進步快。語音互動的品質很難量化——語調自然嗎?回答完整嗎?沒有明確的 ground truth 可以對齊。
加上 B2B 場景(enterprise coding、agent workflow)願意付更高的費用,資源自然往那邊流。voice mode 作為消費者端的功能,優先級就相對低。
邏輯上合理,但對終端用戶來說就是一個隱形的陷阱。
落地建議(給做 AI 產品的 PM)
第一,模型版本要對用戶透明。 不一定要技術細節,但至少要讓用戶知道「這個功能用的是精簡版模型」。Apple Intelligence 至少還會標「用的是 ChatGPT」,你自己家的不同等級模型更應該說清楚。
第二,思考每個入口的「first impression 代表性」。 如果 voice mode 是很多人接觸你的 AI 的第一個管道,但它用的是弱模型,你等於讓最多人用你最差的那面做第一印象。要嗎升級入口模型,要嗎重新設計用戶旅程,讓能力強的功能先被看到。
第三,不要假設用戶會主動探索。 真正去試過 API、playground、flagship 模型的用戶是少數。大多數人就停在他第一個用習慣的入口,然後用那個體驗來代表整個品牌。
說白了,model capability gap 是技術問題,但它造成的用戶認知偏差是產品問題。這兩件事要分開處理,但兩個都不能忽略。
作者:MingTech