精靈寶可夢水晶:Gemini 3 Pro vs 2.5 Pro
這篇實驗記錄告訴我們 Gemini 3 Pro 跟 2.5 Pro,其實已經是兩個物種,Gemini 3 Pro 不只是把關卡通關而已,而是展現出更穩定的世界模型、更強的長程規劃能力,以及對工具、環境限制的活用,而不是被動接受。
作者用同一套 Pokemon Crystal harness,同樣的工具組:Mental Map、Notepad、Map Markers、Code Execution、自訂 Agents Tools,沒有偷偷替任一方開外掛。 系統提示要求模型扮演科學家:要提出假設、用工具驗證、避免依賴訓練資料的既有知識,盡量以實際觀察為準。
這個設計有幾個效果:
價值函數偏向「探索與遊玩」而非純 Speedrun,所以模型會做出像「寧可多花幾小時,也不要失去 Suicune」這種更類人偏好。
為了避免 soft-lock,框架有一套「輔助輪」:例如禁止同一回合同時按方向鍵與確認鍵,降低誤放生寶可夢等高風險操作。
2.5 Pro 在這套約束下仍常打錯名字(想打 GEMINI 結果取名成 G),3 Pro 則開始「嫌棄」這些輔助輪,甚至後面會主動鑽洞來繞過限制

前期如果只看直播,兩個代理看起來進度差不多,徽章數接近、地點也常同步,但如果看底層數據會發現,3 Pro 的優勢:
以大約一半的回合數達到同樣里程碑。
Token 使用量少了約 60%。
因為 3 Pro API 過載造成的停機時間更長(接近 2.5 倍),在時間軸上反而一度落後。 轉折點出現在金黃市的 Whitney:2.5 Pro 被 Miltank 打爆之後進入為期數天的瘋狂練等回圈,而 3 Pro 則沒有在這關翻車,開始穩定拉開差距。

最後,3 Pro 在第 24,178 回合、約 1.88B tokens 時擊敗 Red,維持整個 Johto–Kanto run 零敗績。 以當前效率估算,2.5 Pro 若要達到同樣結果,大概要 157,000 回合、超過 15B tokens,約 69 天連續運行,相對於 3 Pro 的 17 天
作者:JoyceCloud