繁體中文教育語料:Fineweb-Edu-zhtw
為什麼需要一個「繁中版教科書級語料」?
做繁體中文 LLM 的人應該都有同樣的感覺,Hugging Face 上的繁中資料很多品質參差不齊,真正能拿來預訓的乾淨語料其實不多,尤其是需要 知識性、教育性高的文本 時問題更明顯。
這也是為什麼近一年 FineWeb / FineWeb-Edu 被社群推崇,因為它是目前少數能「系統化定義乾淨度」的網路語料方案。NVIDIA 在 FineWeb-Edu 裡提出的那套「用分類器找出教科書等級內容」的方法論,直接改變了大家處理網路語料的方式。
但 FineWeb-Edu 是英文的,繁體中文該要怎麼做呢?
Twinkle AI 就幫大家解決了這個問題。
整個專案沿用原版 FineWeb-Edu 的概念,但所有細節都重新設計,因為繁中語料的噪訊類型、分布、寫作風格其實跟英文差很多。
但要怎麼定義教育性呢? 他們先用 Magistral-Small-2506 對樣本做 0–5 等級的細粒度標註:
0:純雜訊 / 一般聊天
1–2:次教育性、帶資訊但品質不高
3–5:偏教科書、知識密度高、內容結構清楚
(標註全部公開在 fineweb-edu-zhtw-magistral-annotations)
接著,他們把 0–5 合併成三大類,並訓練一個更穩定、推論速度更快的三分類模型:
c0:一般內容
c1:次教育性
c2:教育導向(主要保留)
最後,拿這個 classifier 對 FineWeb-zhtw 全量語料做推論與篩選。
系統化過濾流程(繁體中文特化)
做到這裡還不夠,繁中語料有幾個額外痛點必須處理:
多 GPU 分散推論
FineWeb-zhtw 的量級不小(TB 等級),單機跑推論會跑到過年,因此這次是用 multi-GPU pipeline 把分類流程拆成多段並行。
簡體字偵測與清理
中文網頁資料很常會混繁簡,甚至段落級別混寫,後處理階段加了一層簡體比重偵測,必要時做清理或直接丟掉。
保留分類標籤與 confidence score
研究者後續可以根據自己的需求決定 cut-off,不像一些黑箱資料集直接只給結果,讓人不知道取樣邊界。
最終成果:繁體中文的 FineWeb-Edu 實踐版
FineWeb-Edu-zhtw 可以被視為 FineWeb-Edu 的「繁中延伸版本」:
擁有教育導向的高品質繁中語料
適合做持續預訓練(continued pretraining)
也能做教育任務的 fine-tuning、評測、甚至資料品管研究
對在做繁中模型的人來說,這個資料集應該會是很重要的一塊拼圖。
作者:Chi