即時多人ASR:WhisperLiveKit
最近有些需求要用到 ASR,剛好看到 WhisperLiveKit 跟大家分享。
我用 ASR 最常見的需求其實就三件事,WhisperLiveKit 都恰好對症下藥:
低延遲字幕
多人對話要分清楚誰在講
隱私,最好全地端、不丟雲
以下為實機畫面,前後端都整合好了,開箱即用 (當然環境要用好)

架構如下,用的 ASR 技術都滿前沿的,包括SimulStreaming (SOTA 2025), WhisperStreaming (SOTA 2023), Streaming Sortformer (SOTA 2025), Diart (SOTA 2021) 和 Silero VAD (2024)等等。
後端是 FastAPI+WebSocket,附簡易前端頁面,能直接開瀏覽器測。

目前用下來大致有符合我的需求,不過我還沒測試 CPU-only 能否跑得動,行的話能帶輕型筆電做會議紀錄了。
作者:Chi