Caveman: 簡化 token 真的好嗎?
gif 總結:

近期在 Reddit 上面有很多人在討論一個新的 AI 節省 Token 的方式,叫做 Caveman,中文直接翻譯就是「穴居人」或「原始人」。它的想法其實蠻簡單,就是我們目前反正已經習慣了 AI 有時候會回覆你的時候講一堆囉哩囉嗦的東西,像是你可能叫它解決一個問題,它就一定要先講一句「你的觀察力很不錯」或者說「這個問題很好」之類的。
他們的想法就是可以不要講那麼多廢話嗎?我只想知道我的 Bug 是什麼、問題出在哪、怎麼解決這三件事情就好。所以就有人提出了 Caveman 的 Skills,就是讓 Claude 在輸出時就很像穴居人一樣,都只講重要的名詞跟動詞,減少那些慣用詞、連接詞,或者說為了文法而出現的一些贅字。
我稍微查了一下,參考了4篇文章:Reddit、HackerNews,還有提出這個想法的人他自己的 Blog,以及他有特別提出的一個 Paper:
你這個模型最好是好一點、大一點。如果比較爛的模型的話,像 Paper 裡面有說,如果我把 Output 精簡化的話,會不會讓它花費的 Token 數比較少,但是至少會跟一般的模型是一致的狀況。他們是用 GPT-4 跟 GPT-3.5 去測試,結果發現精簡化完之後,GPT-3.5 反而它的東西掉下去了,GPT-4 則是完全沒有受到任何影響。
如果在處理數學問題這種要透過非常詳細的步驟才能最後推導出來的這類問題的話,隨便做精簡化反而會對輸出是有傷害的。
在 Hacker News 跟 Reddit 大家其實都有在特別提到一件事,是在 Skill 上面,如果你真的套用了Caveman人設,那其實就會撞到我們之前有討論過的一個問題,就是你就是強迫這個 AI 要套入一個角色。那麼套入這個角色就變成說對於 AI 來講,其實它要做兩個任務:一個就是一般你要它輸出的這個任務,另外一個就是它要扮演穴居人這個任務。而對於某些模型來講,你多了這個任務反而會導致它輸出的品質也會變差。
有人順著這個 Caveman 的想法,然後做了一個 GitHub 出來。但最後有人真的測試了一下,就是我剛才講最後提出的人去測試了別人做的那個 GitHub 完之後,發現一件事是他自己打的一個六行 Skill 就已經可以解決他的問題了。這六行的 Prompt :
Respond like smart caveman. Cut all filler, keep technical substance.
- Drop articles (a, an, the), filler (just, really, basically, actually).
- Drop pleasantries (sure, certainly, happy to).
- No hedging. Fragments fine. Short synonyms.
- Technical terms stay exact. Code blocks unchanged.
- Pattern: [thing] [action] [reason]. [next step].最後要提醒的是,現階段其實大家雖然覺得說 Output 的價格很貴,所以我們要減少 Output 的 Token,但實際上最花 Token 數的東西其實是你的對話歷史,甚至就是你在對話前要加的那些 Skills 那些東西,而不是它輸出的東西。它其實輸出的那些 Token 數,相較於你塞進去給它的材料、塞進去給它的歷史對話紀錄以及 Skills 來説的話,其實大部分時間都算少的。所以你真的要省錢的話,你不如先從輸入的東西節省起來開始。
我最後講講我自己的心得,我個人是覺得 Caveman 與其用在 AI 上面,不如用在人上面,或者說你在寫 Skill 的時候把它縮減成 Caveman 的特色去寫,有可能會比較好。
我記得我曾經有看過有人這麼講,就是如果你的輸入是用 Caveman,也就是說你寫的東西可能就只講關鍵動詞、關鍵名詞的話,那麼 AI 畢竟它最底層的原理都是所謂的「字詞接龍器」,那麼其實它中間那些文法或者是說中間那些連接詞,它其實自己就可以猜得出來。既然它自己就可以猜得出來的情況下,那你何必在寫 Skills 或 Input 的情況下,還要把它們寫得這麼完整?當然如果你是給人看,那又另當別論了。
我在這一段講的東西,我不確定有沒有人去嘗試做過這件事情,我自己也沒有再嘗試過,所以如果有人有興趣可以試試看,然後看這樣 Skill 輸出的效果會不會比較好。
Reddit:
https://www.reddit.com/r/ClaudeAI/comments/1sble09/taught_claude_to_talk_like_a_caveman_to_use_75/
Hacker News:
https://news.ycombinator.com/item?id=47647455
Blog:
Paper:
The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models
Caveman Compress Github:
作者:CCL