Gemma 4 E4B 語音理解能力分析

Gemma 4 E4B 音訊理解能力全面實測：9 項任務、327 筆測試的殘酷真相

Google 最新開源的 Gemma 4 E4B（4.5B effective parameters）支援音訊輸入，但「能接收音訊」和「能理解音訊」是兩回事。我們設計了 9 項任務、327 筆測試，涵蓋單句語音與多人對話兩大場景，全面檢驗這個模型的音訊理解上限。

所有推論參數完全依照 Google 官方建議（temperature=1.0, top_p=0.95, top_k=64），ASR CER 由 Twinkle Eval 計算。

零、前置作業

評測集

為了能有效評估模型的表現，我們準備了三項評測集，分別為 Mozilla Common Voice TW（國語單句）、 TaigiSpeech（台語單句）和 tw-daily-dialogue-audio（國語對話）。

Mozilla Common Voice TW

Mozilla Common Voice 是 Mozilla 基金會發起的開源群眾語音資料集計畫，目標是讓語音技術對所有語言都可及。任何人都可以上網站錄音或驗證他人的錄音。繁體中文（TW）分支收錄了台灣使用者朗讀短句的語音片段，涵蓋多種年齡、性別和口音，採 CC0-1.0 授權（公眾領域）。我們從中抽取 50 筆作為國語 ASR、AST、Audio QA 的測試樣本。

TaigiSpeech

TaigiSpeech 是一個台語語音資料集，由台灣學術團隊建立，收錄了台語母語者的語音及對應文本，並標註了語者意圖（如 SOS_CALL、FALL_HELP、LIGHT_ON 等 8 類）。資料集發布於 HuggingFace（TaigiSpeech/TaigiSpeech），適用於台語 ASR、語音理解、意圖分類等任務。我們從 test split 中每個意圖類別各抽取 5 筆，共 40 筆，用於台語意圖分類、AST 台語 → 國語翻譯、及台語 Audio QA 評測。

任務清單

ASR 語音轉寫（國語）
AST 語音翻譯（國語 → 英語）
Audio QA 問答（國語）
SLU 意圖分類（台語）
AST 語音翻譯（台語 → 國語）
Audio QA 問答（台語）
ASR 對話（國語）
SLU 對話（國語）
Audio QA 對話（國語）

一、單句語音評測（CommonVoice TW + TaigiSpeech，240 筆）

任務	語言	API 成功率	表現
ASR 語音轉寫	國語	100% (50/50)	平均 CER 19.8%，34% 完全正確
AST 語音翻譯	國語 → 英語	96% (48/50)	僅 ~21% 語意正確
Audio QA 問答	國語	98% (59/60)	性別判定嚴重偏向男性
SLU 意圖分類	台語	68% (27/40)	準確率 11.1%（比亂猜還低）
AST 語音翻譯	台語 → 國語	65% (26/40)	音譯亂拼
Audio QA 問答	台語	60% (36/60)	大量 API 失敗

二、對話語音評測（tw-daily-dialogue-audio，87 筆）

為了進一步測試模型在「多人對話」場景下的理解能力，我們使用了 10 段台灣日常對話合成語音（每段約 25-30 秒，Speaker A / Speaker B 交談），設計了 ASR、SLU、Audio QA 三項任務。

任務	API 成功率	表現
ASR 對話轉寫	100% (10/10)	平均 CER 29.3%，最佳 3.0%，最差 95.5%
SLU 場景理解	100% (10/10)	部分場景正確，但常出現嚴重幻覺
Audio QA 問答	100% (27/27	僅 22% 答對關鍵內容

三、關鍵發現

1. Cascade Failure（錯誤級聯）是最大問題

模型先 ASR 聽錯，再基於錯誤的聽寫去做翻譯、理解、問答，導致錯上加錯。這在各項任務中反覆出現：

- AST 國語 → 英語：API 成功率 96%，但語意正確僅 21%。例如「滑倒三次」→ "chatted three times"、「蟲鳴鳥叫」→ "Completely speechless"

- 對話 QA：API 全部成功，但只有 22%

答對。模型把「狗狗」聽成「哥哥」、「護理師」聽成「代業販」、「安平」聽成「香港」，後續問答自然全部偏離

- 對話 ASR dialogue_02：CER 高達 95.5%，內容完全幻覺，原文講租屋鄰居噪音，模型轉寫出了完全不同的故事

2. 國語 ASR 勉強堪用，但有明顯天花板

單句 CER 19.8%、對話 CER 29.3%。口語化用詞（「阿雜」、「躺平」）和專有名詞（「草悟道」→「草屋到」）是主要弱點。有 2 筆出現 prompt echo（模型把指令也一起輸出），CER 飆到 400%+。

3. 台語完全無法處理

三項台語任務 API 失敗率 32-40%。意圖分類準確率 11.1%，8 類隨機猜也有 12.5%，模型表現比瞎猜還差，且預測嚴重偏向 SOS_CALL（佔 44%）。

4. Audio QA 性別偏見

國語 Audio QA 的性別判定中，19 筆有 10 筆判為男性、僅 4 筆判為女性、5 筆不確定。語氣描述幾乎一律為「平穩」，模型對聲學特徵的感知力明顯不足。

5. 對話場景理解出現嚴重幻覺

SLU 任務中，模型對部分對話的場景和情緒判斷完全錯誤：

- dialogue_02（鄰居噪音困擾）→ 模型說是「回憶過往戀愛」

- dialogue_09（外送員跑單心累）→ 模型說是「遛狗心情愉悅」

四、結論

Gemma 4 E4B 作為一個 4.5B effective parameters 的模型，能接收音訊輸入本身已是技術成就。但在實際的音訊理解上，它更接近一個「能聽到聲音但聽不太懂」的狀態：

- 國語單句 ASR：CER ~20%，基本能用但不穩定

- 國語對話 ASR：CER ~29%，多人場景更具挑戰

- 語音翻譯/問答：受 ASR 錯誤級聯影響，實際品質遠低於 API 成功率所暗示的水準

- 台語：完全不可用

- 對話理解：場景判斷有時正確，但幻覺頻率過高，無法信賴

建議：若要在生產環境使用 Gemma 4 音訊功能，請務必搭配人工審閱，並僅限於常見語言的簡單 ASR 場景。

完整評測結果（含音訊播放與人工審閱）： 🔗 https://g4e4b-audio-bench.lianghsun.dev
評測工具：Twinkle Eval — https://github.com/ai-twinkle/Eval

作者：Liang-Hsun Huang

2026-04-08T15:21:51.754+00:00

實測經驗

LLM/SLM

Gemma 4 E4B 語音理解能力分析

Liang-Hsun Huang

發布於: 2 個月前

加載中...

原始出處

https://huggingface.co/google/gemma-4-E4B-it

#新模型發布

#評估方法

留言區

排序

T_Hao

#1樓

2 個月前

先收藏晚點看～

Wei-Ting Chen

#2樓

2 個月前

先收，晚點細看

Kai-Wen Cheng

#3樓

2 個月前

先收，晚點補看

Yuheng Chen

#4樓

2 個月前

有料

ChiaWei

#5樓

2 個月前

noted

箱子

#6樓

2 個月前

謝謝大大

Chi

#7樓

2 個月前

天哪，請問你有在雪山救過一個 Gemma 嗎？

箱子

回覆 Chi

(已編輯)2 個月前

哈哈哈沒有啦降版壓

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片