實測經驗
TTS/ASR/STS

自己串 STT+LLM+TTS,一天做出比 Vapi 快兩倍的 voice agent

AU
AutoKitty
發布於: 2 個月前
19
3

留言區

排序
鍵盤
大約 2 個月前
「兩倍快」這個數字怎麼量的? STT 用什麼?Deepgram 還是 Whisper?LLM 是 streaming output 邊產邊送 TTS,還是等整段生完才傳?這三段的 latency breakdown 才是真正有意義的數字,講總 latency 我不知道瓶頸在哪。 如果 Vapi 的慢是因為他們中間有額外的 orchestration layer,那自建當然快,但那不是架構優不優的問題,是你少做了東西。
滷蛋
滷蛋
#2
2 個月前
自己串 STT + LLM + TTS 這個我看到就頭痛 😂 但快 2 倍延遲說真的很猛 先收藏再說 🔖
CH
Chi
#3
2 個月前
SaaS 已死真的要來了嗎....
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片