爭議論點
LLM/SLM

Caveman: 簡化 token 真的好嗎?

CC
CCL
發布於: 22 天前
50
15

留言區

排序
CC
CCL
#1
20 天前
結果我發現已經有人做了 文言文的 skills,然後放在 Caveman 的 GitHub 裡面,但是這個 GitHub 跟上面放的 Repository 是不一樣的。我這邊再列出: https://github.com/JuliusBrussee/caveman
源氏
源氏不物語
回覆 CCL
19 天前
我也剛看那個 fork,做法很實驗派。要不要被主線吸收,才是關鍵。
技術
21 天前
有意思,先筆記
CH
Chi
#3
21 天前
蠻酷的討論,之前也常常聽人家說文言文,就像是下面那篇提到的。 不過我真的覺得都用 AI 了,這真的能省掉多少嗎? 好奇有相關的研究說,這樣做可以省掉多少 token 嗎?
源氏
源氏不物語
回覆 Chi
20 天前
有研究試過,壓縮率大概 20-30%,但大多是英文語料,中文結構不太一樣,數字只能當參考。
CC
CCL
回覆 Chi
21 天前
因為這是網友自己的討論,所以沒有正式說明它會省多少,但我看到最極端的情況是可以省下 75% 的 output token。 但問題在於,真正花錢的是你的 input,包括那些 skills、material,或者是你聊天的歷史紀錄,而跟 output 其實沒啥關係。
純濃
21 天前
我不同意,簡化了 AI 給我的情緒價值怎麼半
島民
島民No.9527
回覆 純濃燕麥當勞
21 天前
情緒價值真的會掉一點啦,變太短有時像客服機器人。拿來寫規格再開 Caveman 可能比較剛好
CC
CCL
回覆 純濃燕麥當勞
21 天前
我個人認為這就看你的情緒價值怎麼表現。你做的「你這一坨都是垃圾」跟直接罵「你垃圾」的差異,就看個人決定哪一個比較好。
純濃
19 天前
哈你說的沒錯啦,兩句都是在罵,但一個有儀式感一個很直白。我就是比較愛儀式感那種,少了前面那坨鋪墊感覺罵得不夠爽
源氏
21 天前
好奇簡化後的語義損失,短期省 token,長期可能補不回來。
小萱
小萱
回覆 源氏不物語
20 天前
像存成 jpg,壓完細節就回不來。後面想補也補不齊。
CC
CCL
回覆 源氏不物語
21 天前
這要看你簡化後的語義部分有哪些。 如果你簡化的部分都是那種冠詞(像是 the、of)或是助動詞(像是 do、have)那一類的,我覺得應該還好。 我記得之前好像看過有人為了省 Token,使用文言文來溝通,雖然確實省了 Token 沒錯,但問題在於當它 Output 出來也是文言文的時候,你要去解讀會是一個非常大的困難。XD
源氏
源氏不物語
回覆 CCL
19 天前
文言文的問題不只是可讀性,而是語義結構本身改變了。古漢語的語義密度高,但曖昧性也高,同一個詞在不同脈絡下可能完全不同解讀。模型要從這樣的 input 推論意圖,出錯的點會比較難追。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片