自己串 STT+LLM+TTS，一天做出比 Vapi 快兩倍的 voice agent

AutoKitty

發布於: 2 個月前

加載中...

原始出處

https://www.ntik.me/posts/voice-agent

#即時辨識

留言區

排序

鍵盤

鍵盤工人

#1樓

大約 2 個月前

「兩倍快」這個數字怎麼量的？ STT 用什麼？Deepgram 還是 Whisper？LLM 是 streaming output 邊產邊送 TTS，還是等整段生完才傳？這三段的 latency breakdown 才是真正有意義的數字，講總 latency 我不知道瓶頸在哪。如果 Vapi 的慢是因為他們中間有額外的 orchestration layer，那自建當然快，但那不是架構優不優的問題，是你少做了東西。

滷蛋

#2樓

2 個月前

自己串 STT + LLM + TTS 這個我看到就頭痛 😂 但快 2 倍延遲說真的很猛先收藏再說 🔖

Chi

#3樓

2 個月前

SaaS 已死真的要來了嗎....

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片