概念整理
TTS/ASR/STS

A Frontier Open-Source Text-to-Speech Model

CH
Chi
發布於: 8 個月前
514
9

留言區

排序
VI
8 個月前
VibeVoice 最大亮點應該是能生成超長語音, 但實際應用上還沒到能替代 11Labs
CH
Chi
回覆 Vivian L
8 個月前
黑呀 但還是很多人拿來跟 ElevenLabs 比 我覺得定位不太一樣,ElevenLabs 是商業產品,靠封閉數據和調教保證一致性 VibeVoice 開源、強調 frontier 技術
RU
8 個月前
就研究角度,用低頻率 speech tokenizer + diffusion head 的設計算是很新的做法, 能把超長序列壓縮到可行的運算規模,這點值得肯定。 不過從應用角度來看,如果聲音表現力不足,實際上很難被 podcast 或 audiobook 製作方採用, 觀眾聽不下去,90 分鐘長度就沒有意義
CH
Chi
回覆 Ruby Chou
8 個月前
目前感受還沒到實用的 TTS 工具等級,不過架構給了社群一個新思路, 看未來能不能有人把這條路線走到落地XD
HE
HenryCat
回覆 Ruby Chou
8 個月前
確實,但這種架構開出來,可能半年後別的團隊就能基於它做微調或商業化了
謝明
8 個月前
我試了一下 demo,感覺女聲還行,但男聲真的不太能聽,差距太明顯了
CH
Chi
回覆 謝明慧
8 個月前
看了 reddit 蠻多人提到男聲不自然,我覺得這可能跟訓練資料的 gender distribution 有關
林 Jay
回覆 Chi
8 個月前
沒交代清楚訓練資料來源,聲音差異就很難解釋,到底是資料分布不均還是模型本身的問題 這也凸顯開源社群在 dataset transparency 的問題
承翰
承翰
L3
回覆 林 Jay
8 個月前
依 EU AI Act,現在開始要求 AI 模型公開訓練資料的高階摘要, 好讓使用者知道資料來源,但開源模型此項規定多被豁免,而且稽核資料只留給政府機關看,外界依舊難以監督。 所以技術社群目前還是只能靠自我溝通,透明度還有一段路要走。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片