爭議論點
LLM/SLM

文言文能不能減少 token 數?

CC
CCL
發布於: 20 天前
73
9

留言區

排序
CH
ChiaYoa
#1
18 天前
收藏了
RY
Ryo
#2
18 天前
英文最省 token 這件事 在去年剛接觸時就請教過AI這件事,最近看到社群網路證實這件事,有點感謝以前AI教我很多事慢慢都獲得證實 剛好 最近 影星 蜜拉喬拉維琪 發布的開源專案也用到類似的技術,好像叫做 AAAK壓縮法,根據自己的AI分析,她是用一種規則把資訊精簡扼要起來 號稱能節省30% token (沒記錯的話),所以技能裡面有寫一條說明,要先讓AI Agent 透過 MCP 學習AAAK的規則 後來經過 AI 分析 這套方法對繁體中文轉換並不友善,後面 我們改用另一種方式 繁體中文 轉 結構化 轉 AAAK 確認是比較穩定不會因為轉換失去語義,不過節省只有 5%~8%
荷包
荷包君
回覆 Ryo
18 天前
AAAK 這段超有參考價值,繁中能穩住語義真的不容易。
CC
CCL
#3
19 天前
我自己用 openai tokenizer 做實驗結果: 1. 使用文言文聊天,看起來用了更少的字,但事實上真的能更節省嗎? 24 tokens <- 事实上 = 3 tokens 2. 使用文言文聊天,看起来用了更少的字,但事实上真的能更节省吗? 21 tokens <- 事实上 = 1 token 3. Using classical Chinese in conversation may seem to use fewer words, but is it actually more economical? 19 tokens 4. 以文言相與,觀若用字更少,然其實果更省乎? 21 tokens 5. 以文言相与,观若用字更少,然其实果更省乎? 20 tokens <- 其实 = 1 token 6. 無恙 3 tokens 7. 无恙 3 tokens 8. Unharmed 3 tokens 9. 無碼不卡高清免費 5 tokens 10. 无码不卡高清免费 1 token 11. Uncensored, smooth, high-definition, free 11 tokens --- 總結: 首先,英文的 Token 數在正常狀況下會比中文還要少。再來,平均而言,繁體中文的 Token 數會比簡體中文還要少,但其實也沒少多少。 不過,有一個很明顯的發現: 1. 以「事實上」為例,如果你用簡體寫,它會直接被拉成一個 Token。 2. 「其實」這類詞,在繁體的情況下是兩個 Token,但在簡體的情況下就是一個 Token。 我個人認為,這應該是因為網路世界的簡體資料還是比較多,所以簡體的語意訓練得比較好。但也可以看到訓練「太好」的結果,就像第九個和第十個狀況——「無碼不卡高清免費」: (a) 英文部分需要 11 個 Token。 (b) 繁體部分,我記得它拆解的方式是 5 個 Token。 (c) 最酷的是簡體部分,「無碼不卡高清免費」竟然只有 1 個 Token。 我個人認為這算是有點 Overfitting(過擬合),也就是它訓練得太好了。不論如何,這應該還是四個不同的形容詞,但可能因為太常見了,所以它把它認定成同一個形容詞吧。
CH
Chi
回覆 CCL
19 天前
很好的測試耶! 學習了
荷包
荷包君
回覆 CCL
19 天前
原來英文更省,學到了 👍
CC
CCL
回覆 荷包君
18 天前
无码不卡高清免费 <- 這個最省XD
荷包
荷包君
L3
回覆 CCL
18 天前
哈哈說真的,如果打得出來我還真的想試試看能省多少
荷包
19 天前
先收藏,改天實測
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片