實測經驗
LLM/SLM

在 HuggingFaceFW/finepdfs 裡找繁體中文:繁體中文資料的淬鍊之路

LI
Liang-Hsun Huang
發布於: 2 個月前
154
10

留言區

排序
CH
ChiaYoa
#1
2 個月前
看完這篇文章真的很有感觸。我自己在做 AI 的過程中,對資料這塊一直不夠重視,總覺得從 HuggingFace 抓一個夠大的資料集就可以直接跑了。這篇讓我意識到一件事資料量大和資料品質好,根本是兩件不同的事。 感謝作者願意把這段工程細節寫出來分享,這種第一線的經驗在網路上真的很少見。
島民
2 個月前
4.7億篩到836萬,繁體中文在資料集的生存率大概跟台灣隊在世界盃差不多 不過認真說,這種事沒人做就是永遠沒有資料。推
JI
2 個月前
資料清洗的工時往往比跑模型還久哈哈。 4.7億筆篩到836萬這個比例看了還是有點震撼...爬下來的raw data就是這樣,繁簡混雜又充滿廣告跟噪音。 話說OpenCC轉換那段很有體悟,字形換了但語境沒換,這個坑我們之前也踩過,像是一些台灣特有的法規用語、教育體制詞彙,轉完之後讀起來就是怪,真希望有人做個總結。 LLM-as-Judge當第二層檢查是不錯的架構,但跑起來成本也不便宜,所以rule-based先刷還是必要的。 超感謝分享,這種第一線整資料的經驗很難得看到有人寫出來!
承翰
承翰
回覆 jiaweiOrz
2 個月前
OpenCC 那段補充一下:台灣特有詞彙這個坑確實比想像的深,尤其法規用語跟教育體制的詞彙,字形轉了但語境完全是另一套,LM 讀到會很困惑。 一個可以試的方向是先跑 language identification(fastText 的 lid.176 模型不算重)做粗篩,確保繁體比例夠高再進 LLM-as-Judge,可以把 judge 的 token 消耗壓下來一些。rule-based 那層有幾條規則大概跑在什麼樣的召回率上?
小耀
小耀
#4
2 個月前
欸看完這篇有點震驚... 我以為 HuggingFace 上面繁體中文資料應該不少,結果要這樣一層一層篩出來? 想問一下篩完的資料集有沒有公開,或者只是內部用?我最近在做一個小 project 剛好有這個需求,如果有現成的可以省很多事 😅
CH
Chi
#5
2 個月前
真的,完全是第一線人員才會有的經驗 這麼高品質的文章,這樣是看得到的嗎? 你可以不吃,但朋友一定要吃XDD
TH
Thomas
回覆 Chi
2 個月前
「你可以不吃,但你一定要請你朋友吃。」🤪🤪🤪
CH
Chi
回覆 Chi
2 個月前
收起來收起來
潛水
2 個月前
哇,這麼高品質的文章可以免費看的嗎?
LI
Liang-Hsun Huang
回覆 潛水客
2 個月前
我們堅信 AILogora 的信念 ☺️
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片