數發部:臺灣主權AI訓練語料庫
這幾天在整理資料時,終於花時間把 數位發展部 推出的「臺灣主權 AI 訓練語料庫(TAIC)」看過一輪,這是一個從政府端建立起一個具台灣特色、正體中文為主的 AI 語料資源平台。
為什麼要建立「主權 AI 語料庫」?
這幾年如果你有碰過繁體中文 LLM,不管是自己訓模型、微調或是做地端應用,應該都會遇到資料不足或不夠精確的問題,以往中文語料無論開源或商用,往往以簡體為主,但若拿此資料來訓練 AI,那麼 AI 在台灣語言使用與文化表現上非常容易出現偏差,這在台灣特殊的地緣政治下,顯得格外敏感。
在跟某些產商或業主接觸時,常感受到大家會以為只要把模型換成支援繁體中文,或把回答轉成繁體中文,就算是「台灣版 AI」,但實作者都知道,真正的問題從來不是字形,而是語境與世界觀,舉個例子你問 AI 政策,它會給你不屬於台灣的制度;或你問生活用語,它會出現「看得懂,但不會這樣講」的回答。
過往有許多前輩推出各式台灣的語料集,如以下示意(有缺請給我說)

TAIC 簡單來說就是幫你把能安心用來訓模型的材料先準備好,目前釋出的語料以政府與公共資料為主,涵蓋政策、教育、文化、環境等領域,並以繁體中文與台灣語境為核心。這些內容本身不一定最好用,但它們的來源清楚且授權明確,讓模型訓練者不再需要在每一筆資料前面問這是否合法。
TAIC 目前的規模與內容
目前啟動後的語料庫已累積:
超過 200 個政府機關資料來源參與上架,涵蓋中央各部會。
超過 2,000 筆資料集,累計 超過 6 億個 tokens
資料領域多元,包括 語言、文化、教育、生物、地理環境 等內容,並包含正體中文語言學資料、歷史文化資產、族群與節慶、專業術語與百科知識等。

語料授權與使用方式
過去很多做技術團隊,其實不是技術做不到,而是卡在法務與風險上,如資料抓到但不敢用;或模型訓練出來後,但不敢公開,最後只能一直停在實驗階段。在 TAIC 的設計中,數位發展部也意識到這個痛點,並與經濟部智慧財產局合作推出《台灣主權 AI 訓練語料授權條款(第 1 版)》,透過一次性、明確界定用途的授權方式,明確界定資料開放與使用條件,避免訓練資料著作權爭議,這件事對研究單位、學術界、甚至新創來說都是一個很大的門檻解除
使用者申請方式:
TAIC 明確把語料分成兩大類,對長期在做模型訓練的人來說,這樣的區分其實非常清楚哪些資料只能訓模型;哪些資料可以拿來做產品,而不再有模糊的灰色地帶。
第一類是僅授權用於 AI 訓練的語料,這類資料是由資料提供單位依《台灣主權 AI 訓練語料授權條款(第 1 版)》釋出,只能用於模型訓練與學習,不得另作他用,這也是 TAIC 比較關鍵也比較特別的地方。使用這類語料前,必須先申請帳號並通過審核,整個流程與使用邊界其實訂得相當清楚,數位發展部通常會在約 7 個工作天內完成審核,通過後才會開通對應的下載權限。
第二類則是政府開放資料,同步自政府資料開放平台,採《政府資料開放授權條款-第 1 版》,允許不限目的的自由使用,包含重製、改作與開發衍生產品,當然也包含 AI 訓練在內,且無須申請帳號即可下載,適合快速測試或一般研究用途。
在檔案格式上,目前提供的多為 PDF 與 JSON 等通用格式,也符合 FAIR 原則,也就是資料具備可查找、可取得、可互通與可再利用的特性,對實際進入模型訓練流程來說是相對友善的設計。

但這還不是終點
站在實作者角度,這個語料庫現在還不到拿來就能訓出好模型的階段,距離真正好用,還需要更多自然語言資料、更細緻的標註、更貼近實際模型流程的整理方式,但資料基礎建設本來就是慢而且不討喜的工程,不是一蹴可幾的事情,還是很開心政府帶頭開始做這件事,這對原本長期在做繁體中文 LLM 的人來說,也許不是一個讓人熱血沸騰的消息,但我認為是一個讓人願意繼續走下去的支撐。
作者:Chi