Gemma 4 E4B 語音理解能力分析
Gemma 4 E4B 音訊理解能力全面實測:9 項任務、327 筆測試的殘酷真相
Google 最新開源的 Gemma 4 E4B(4.5B effective parameters)支援音訊輸入,但「能接收音訊」和「能理解音訊」是兩回事。我們設計了 9 項任務、327 筆測試,涵蓋單句語音與多人對話兩大場景,全面檢驗這個模型的音訊理解上限。
所有推論參數完全依照 Google 官方建議(temperature=1.0, top_p=0.95, top_k=64),ASR CER 由 Twinkle Eval 計算。
零、前置作業
評測集
為了能有效評估模型的表現,我們準備了三項評測集,分別為 Mozilla Common Voice TW(國語單句)、 TaigiSpeech(台語單句)和 tw-daily-dialogue-audio(國語對話)。
Mozilla Common Voice TW
Mozilla Common Voice 是 Mozilla 基金會發起的開源群眾語音資料集計畫,目標是讓語音技術對所有語言都可及。任何人都可以上網站錄音或驗證他人的錄音。繁體中文(TW)分支收錄了台灣使用者朗讀短句的語音片段,涵蓋多種年齡、性別和口音,採 CC0-1.0 授權(公眾領域)。我們從中抽取 50 筆作為國語 ASR、AST、Audio QA 的測試樣本。
TaigiSpeech
TaigiSpeech 是一個台語語音資料集,由台灣學術團隊建立,收錄了台語母語者的語音及對應文本,並標註了語者意圖(如 SOS_CALL、FALL_HELP、LIGHT_ON 等 8 類)。資料集發布於 HuggingFace(TaigiSpeech/TaigiSpeech),適用於台語 ASR、語音理解、意圖分類等任務。我們從 test split 中每個意圖類別各抽取 5 筆,共 40 筆,用於台語意圖分類、AST 台語 → 國語翻譯、及台語 Audio QA 評測。
任務清單
ASR 語音轉寫(國語)
AST 語音翻譯(國語 → 英語)
Audio QA 問答(國語)
SLU 意圖分類(台語)
AST 語音翻譯(台語 → 國語)
Audio QA 問答(台語)
ASR 對話(國語)
SLU 對話(國語)
Audio QA 對話(國語)
一、單句語音評測(CommonVoice TW + TaigiSpeech,240 筆)
任務 | 語言 | API 成功率 | 表現 |
|---|---|---|---|
ASR 語音轉寫 | 國語 | 100% (50/50) | 平均 CER 19.8%,34% 完全正確 |
AST 語音翻譯 | 國語 → 英語 | 96% (48/50) | 僅 ~21% 語意正確 |
Audio QA 問答 | 國語 | 98% (59/60) | 性別判定嚴重偏向男性 |
SLU 意圖分類 | 台語 | 68% (27/40) | 準確率 11.1%(比亂猜還低) |
AST 語音翻譯 | 台語 → 國語 | 65% (26/40) | 音譯亂拼 |
Audio QA 問答 | 台語 | 60% (36/60) | 大量 API 失敗 |
二、對話語音評測(tw-daily-dialogue-audio,87 筆)
為了進一步測試模型在「多人對話」場景下的理解能力,我們使用了 10 段台灣日常對話合成語音(每段約 25-30 秒,Speaker A / Speaker B 交談),設計了 ASR、SLU、Audio QA 三項任務。
任務 | API 成功率 | 表現 |
|---|---|---|
ASR 對話轉寫 | 100% (10/10) | 平均 CER 29.3%,最佳 3.0%,最差 95.5% |
SLU 場景理解 | 100% (10/10) | 部分場景正確,但常出現嚴重幻覺 |
Audio QA 問答 | 100% (27/27 | 僅 22% 答對關鍵內容 |
三、關鍵發現
1. Cascade Failure(錯誤級聯)是最大問題
模型先 ASR 聽錯,再基於錯誤的聽寫去做翻譯、理解、問答,導致錯上加錯。這在各項任務中反覆出現:
- AST 國語 → 英語:API 成功率 96%,但語意正確僅 21%。例如「滑倒三次」→ "chatted three times"、「蟲鳴鳥叫」→ "Completely speechless"
- 對話 QA:API 全部成功,但只有 22%
答對。模型把「狗狗」聽成「哥哥」、「護理師」聽成「代業販」、「安平」聽成「香港」,後續問答自然全部偏離
- 對話 ASR dialogue_02:CER 高達 95.5%,內容完全幻覺,原文講租屋鄰居噪音,模型轉寫出了完全不同的故事
2. 國語 ASR 勉強堪用,但有明顯天花板
單句 CER 19.8%、對話 CER 29.3%。口語化用詞(「阿雜」、「躺平」)和專有名詞(「草悟道」→「草屋到」)是主要弱點。有 2 筆出現 prompt echo(模型把指令也一起輸出),CER 飆到 400%+。
3. 台語完全無法處理
三項台語任務 API 失敗率 32-40%。意圖分類準確率 11.1%,8 類隨機猜也有 12.5%,模型表現比瞎猜還差,且預測嚴重偏向 SOS_CALL(佔 44%)。
4. Audio QA 性別偏見
國語 Audio QA 的性別判定中,19 筆有 10 筆判為男性、僅 4 筆判為女性、5 筆不確定。語氣描述幾乎一律為「平穩」,模型對聲學特徵的感知力明顯不足。
5. 對話場景理解出現嚴重幻覺
SLU 任務中,模型對部分對話的場景和情緒判斷完全錯誤:
- dialogue_02(鄰居噪音困擾)→ 模型說是「回憶過往戀愛」
- dialogue_09(外送員跑單心累)→ 模型說是「遛狗心情愉悅」
四、結論
Gemma 4 E4B 作為一個 4.5B effective parameters 的模型,能接收音訊輸入本身已是技術成就。但在實際的音訊理解上,它更接近一個「能聽到聲音但聽不太懂」的狀態:
- 國語單句 ASR:CER ~20%,基本能用但不穩定
- 國語對話 ASR:CER ~29%,多人場景更具挑戰
- 語音翻譯/問答:受 ASR 錯誤級聯影響,實際品質遠低於 API 成功率所暗示的水準
- 台語:完全不可用
- 對話理解:場景判斷有時正確,但幻覺頻率過高,無法信賴
建議:若要在生產環境使用 Gemma 4 音訊功能,請務必搭配人工審閱,並僅限於常見語言的簡單 ASR 場景。
完整評測結果(含音訊播放與人工審閱): 🔗 https://g4e4b-audio-bench.lianghsun.dev
評測工具:Twinkle Eval — https://github.com/ai-twinkle/Eval
作者:Liang-Hsun Huang