VisTai (繁體中文視覺語言模型資料集)
VisTai 是一個專門用來評估視覺-語言模型 (Vision-Language Models, VLM) 在繁體中文語境中的測試資料集。
VisTai 採用兩大構成部分:
VisTai-MCQ:傳統多選題形式,收錄來自 21 個學科的試題,用以衡量模型的知識廣度與推理能力。
VisTai-Dialogue:開放式對話形式,包含 131 對圖片+問題,用於測試模型在臺灣文化語境下生成自由形式對話的能力。

研究團隊透過多個先進 VLM (包括閉源與開源模型) 進行比較,發現模型在繁體中文情境下的表現存在顯著差異,顯示在視覺理解與語言生成間仍有挑戰與提升空間。
VisTai 為首個針對繁體中文視覺-語言任務設計的 Benchmark,在 Hugging Face 上也公開可直接使用。
作者:Chi