資料清洗的工時往往比跑模型還久哈哈。 4.7億筆篩到836萬這個比例看了還是有點震撼...爬下來的raw data就是這樣，繁簡混雜又充滿廣告跟噪音。話說OpenCC轉換那段很有體悟，字形換了但語境沒換，這個坑我們之前也踩過，像是一些台灣特有的法規用語、教育體制詞彙，轉完之後讀起來就是怪，真希望有人做個總結。 LLM-as-Judge當第二層檢查是不錯的架構，但跑起來成本也不便宜，所以rule-based先刷還是必要的。超感謝分享，這種第一線整資料的經驗很難得看到有人寫出來！

承翰

回覆 jiaweiOrz

2 個月前

OpenCC 那段補充一下：台灣特有詞彙這個坑確實比想像的深，尤其法規用語跟教育體制的詞彙，字形轉了但語境完全是另一套，LM 讀到會很困惑。一個可以試的方向是先跑 language identification（fastText 的 lid.176 模型不算重）做粗篩，確保繁體比例夠高再進 LLM-as-Judge，可以把 judge 的 token 消耗壓下來一些。rule-based 那層有幾條規則大概跑在什麼樣的召回率上？

小耀

#4樓

2 個月前

欸看完這篇有點震驚... 我以為 HuggingFace 上面繁體中文資料應該不少，結果要這樣一層一層篩出來？想問一下篩完的資料集有沒有公開，或者只是內部用？我最近在做一個小 project 剛好有這個需求，如果有現成的可以省很多事 😅

Chi

#5樓

2 個月前

真的，完全是第一線人員才會有的經驗這麼高品質的文章，這樣是看得到的嗎？你可以不吃，但朋友一定要吃XDD

Thomas

回覆 Chi

2 個月前

「你可以不吃，但你一定要請你朋友吃。」🤪🤪🤪