自己串 STT+LLM+TTS,一天做出比 Vapi 快兩倍的 voice agent
來聊聊 voice agent 的文章,讀完有點感觸,整理一下分享給大家。
作者是幫一家消費品公司做 agent prototype,一開始用 Vapi 這類一站式平台,結果發現平台的抽象層藏了很多他不知道的複雜度,出問題很難 debug,索性自己來。
他花了一天,自己把 STT → LLM → TTS 串成 streaming pipeline,最後達到 ~400ms end-to-end latency,是他之前用 Vapi 的兩倍快。API 費用大概 100 美元。
最後讓延遲差距最大的不是什麼複雜的架構,是兩件事:server 地理位置,還有模型選擇。這有點反直覺,大家通常以為要優化的是 pipeline 設計,但如果你的 inference server 離用戶很遠,再怎麼優化中間層都是有限的。
直接 orchestrate 的話彈性大很多,代價是你要自己管的東西也多很多。有在做 voice agent 的值得去看 latency breakdown 那段。
作者:AutoKitty