概念整理
TTS/ASR/STS

A Frontier Open-Source Text-to-Speech Model

CH
Chi
發布於: 10 個月前
517
9

留言區

排序
VI
9 個月前
VibeVoice 最大亮點應該是能生成超長語音, 但實際應用上還沒到能替代 11Labs
CH
Chi
回覆 Vivian L
9 個月前
黑呀 但還是很多人拿來跟 ElevenLabs 比 我覺得定位不太一樣,ElevenLabs 是商業產品,靠封閉數據和調教保證一致性 VibeVoice 開源、強調 frontier 技術
RU
10 個月前
就研究角度,用低頻率 speech tokenizer + diffusion head 的設計算是很新的做法, 能把超長序列壓縮到可行的運算規模,這點值得肯定。 不過從應用角度來看,如果聲音表現力不足,實際上很難被 podcast 或 audiobook 製作方採用, 觀眾聽不下去,90 分鐘長度就沒有意義
CH
Chi
回覆 Ruby Chou
10 個月前
目前感受還沒到實用的 TTS 工具等級,不過架構給了社群一個新思路, 看未來能不能有人把這條路線走到落地XD
HE
HenryCat
回覆 Ruby Chou
10 個月前
確實,但這種架構開出來,可能半年後別的團隊就能基於它做微調或商業化了
謝明
10 個月前
我試了一下 demo,感覺女聲還行,但男聲真的不太能聽,差距太明顯了
CH
Chi
回覆 謝明慧
10 個月前
看了 reddit 蠻多人提到男聲不自然,我覺得這可能跟訓練資料的 gender distribution 有關
林 Jay
回覆 Chi
10 個月前
沒交代清楚訓練資料來源,聲音差異就很難解釋,到底是資料分布不均還是模型本身的問題 這也凸顯開源社群在 dataset transparency 的問題
承翰
承翰
L3
回覆 林 Jay
9 個月前
依 EU AI Act,現在開始要求 AI 模型公開訓練資料的高階摘要, 好讓使用者知道資料來源,但開源模型此項規定多被豁免,而且稽核資料只留給政府機關看,外界依舊難以監督。 所以技術社群目前還是只能靠自我溝通,透明度還有一段路要走。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片