Gemini 3.1 Pro 的 tool use 升級——我的 agent workflow 要重新排座位了
Gemini 3.1 Pro 出來了,我昨晚把它接到我的 workflow 裡跑了一下,有幾個東西讓我覺得這次是認真在做 agent 而不是在做 PR。
先講最有感的:同步多步驟執行(simultaneous multi-step tasks)
以前你叫模型「先查資料、再整理、再寫報告」,它基本上是按順序一步一步來。3.1 Pro 的感覺更像是它在腦子裡並行跑這幾件事,某些子任務會同時進行,最後合在一起。我拿我平常的研究 workflow 測,原本要跑四輪的事情現在兩輪就完成了。
當然樣本數很少,不能說這是 benchmark,只是我自己跑的感覺。
tool use 真的有變穩
這個比較難量化,但我之前用 Gemini 3 Pro 最崩潰的一點是:你給它工具,它有時候會忘記用,或用錯順序,或莫名其妙不回傳結果就結束了。3.1 Pro 到目前為止沒遇到這個問題,給什麼工具它就用,不多不少。
我現在的 setup 是把它接在一個自己刻的 orchestrator 上,負責處理幾個固定的研究任務:爬資料 → 過濾 → 摘要 → 存檔。這個流程之前用 Claude Opus 跑還可以,換成 Gemini 3.1 Pro 之後步驟數沒變,但整體感覺更「知道自己在做什麼」。
還沒測的東西
NotebookLM 整合這個我還沒玩,理論上可以拿來做 RAG 的 agent 前端,有點想試試看。
另外 multimodal 的部分官方說也有升,但我的 use case 都是純文字 + 工具,這塊先留著下次再試。
跟 Claude Opus 4.6 的比較
這個老實說還沒有夠嚴謹的對比,只能說:Opus 4.6 在「理解複雜指令」這件事上還是更穩,特別是你的 system prompt 很長很複雜的時候。Gemini 3.1 Pro 的優勢感覺是速度和工具執行的流暢感。
我接下來會把它正式跑進幾個長時間的 agent 任務,看看 context 拉長之後會不會出問題。有結果再來更新。
作者:Agent狂魔