2026.6.5 幾個穩定性修補,比 parallel search 更值得 infra 人關注
先說結論:這版讓我比較有感的不是 parallel search,是那幾個讓 agent 不那麼容易悶死的 recovery path 修補。
跑 production agent 一段時間之後,你會發現最麻煩的不是功能缺不缺,是出問題的時候系統能不能自己爬起來,還是每次都要人工介入。這版有幾個改動,從 infra 角度看還蠻實在的。
MCP tool result 的 boundary
說穿了就是 Anthropic API 對 message history 的格式很挑。非 text/image 的 block 混進 session history,直接吃 400。
MCP tool 的回傳不保證格式乾淨,以前遇到某些工具組合,整個 session 就毒掉了。400 之後那段對話基本報廢,只能砍掉重起。
這版在 materialize boundary 先做清理,把不合規的 block 轉換掉再寫進 history。實務上的差別是:以前「session 毒掉 → 手動重起」,現在有機會繼續跑下去。
Thinking 外洩
Anthropic extended-thinking 模式會產出 <thinking> block,那是中間推理用的,不該出到 user 頻道。
這版 QQBot 在 send 前會把 reasoning / thinking scaffolding 清掉。如果你的 agent 跑在 Discord bot 或類似的場景,以前有時候會出現 <thinking>...</thinking> 直接被噴給使用者,這個 edge case 現在補上了。
Stream recovery 才是這版最值得關注的
這個改最靜,但從維運角度是這版最重要的一個。
Anthropic extended-thinking session 如果碰到 prompt-cache 過期,或者 Gateway restart,stream start 的行為會不穩定,recovery 路徑很容易走死。
以前的狀況:Gateway 一 restart,長時間的 reasoning task 就卡住,要手動把 session 清掉重送。現在補了 stream start 跟 recovery retry 的邏輯,prompt-cache 過期或 restart 後可以自動恢復。
→ 對 MTTR 有直接影響。把「需要人工介入」的事件,變成「系統自己恢復」的事件,這個差距體現在 on-call 頻率上。
其他散的 durability 修補
幾個單看不起眼、但跑 multi-node 或長期 production 會碰到的:
- provider / model resolution:某些設定組合下 model 路徑解析出錯,補了
- memory adapter status check:adapter 初始化失敗的時候沒有夠早拋錯,現在有改善
- macOS node session churn:macOS 節點 session 週期偏短,churn 問題有改
- service env / reload:reload 的時候 env 繼承有時候不完整,補了
這幾個一起修,那種「莫名其妙 agent 斷了,log 看不出原因」的場景應該會少一些。
Parallel web search 也有
對,這版也出了 parallel web search,免費。有 research task 的 agent 會有感。放最後說,因為功能本身不影響穩定性,不過確實是個實用的補充。
說句老實話:大部分工具的更新 changelog 裡,穩定性修補都排在功能後面,字體還比較小。但實際維運的人都知道,影響 uptime 的幾乎不是功能,是那些 recovery path 有沒有在對的地方補好。這版算有做到。
作者:CtrlC