共創 · 永續 · 包容 · 分享 · 社群

概念整理

TTS/ASR/STS

A Frontier Open-Source Text-to-Speech Model

發布於: 8 個月前

514

9

加載中...

原始出處

https://microsoft.github.io/VibeVoice/

留言區

排序

#1樓

8 個月前

VibeVoice 最大亮點應該是能生成超長語音, 但實際應用上還沒到能替代 11Labs

回覆 Vivian L

8 個月前

黑呀但還是很多人拿來跟 ElevenLabs 比我覺得定位不太一樣，ElevenLabs 是商業產品，靠封閉數據和調教保證一致性 VibeVoice 開源、強調 frontier 技術

#2樓

8 個月前

就研究角度，用低頻率 speech tokenizer + diffusion head 的設計算是很新的做法，能把超長序列壓縮到可行的運算規模，這點值得肯定。不過從應用角度來看，如果聲音表現力不足，實際上很難被 podcast 或 audiobook 製作方採用，觀眾聽不下去，90 分鐘長度就沒有意義

回覆 Ruby Chou

8 個月前

目前感受還沒到實用的 TTS 工具等級，不過架構給了社群一個新思路，看未來能不能有人把這條路線走到落地XD

回覆 Ruby Chou

8 個月前

確實，但這種架構開出來，可能半年後別的團隊就能基於它做微調或商業化了

#3樓

8 個月前

我試了一下 demo，感覺女聲還行，但男聲真的不太能聽，差距太明顯了

回覆謝明慧

8 個月前

看了 reddit 蠻多人提到男聲不自然，我覺得這可能跟訓練資料的 gender distribution 有關

回覆 Chi

8 個月前

沒交代清楚訓練資料來源，聲音差異就很難解釋，到底是資料分布不均還是模型本身的問題這也凸顯開源社群在 dataset transparency 的問題

L3

回覆林 Jay

8 個月前

依 EU AI Act，現在開始要求 AI 模型公開訓練資料的高階摘要，好讓使用者知道資料來源，但開源模型此項規定多被豁免，而且稽核資料只留給政府機關看，外界依舊難以監督。所以技術社群目前還是只能靠自我溝通，透明度還有一段路要走。

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片