Karpathy 對 DeepSeek OCR 的看法
Karpathy 有發表其對 DeepSeek OCR 的看法,原則上滿正向的。
以下AI 翻譯,不喜歡自己去看原文:
我其實蠻喜歡這篇新的 DeepSeek-OCR 論文。
它確實是一個不錯的 OCR 模型(也許比 dots 稍差一點),但資料收集什麼的先不談——那都不是重點。
我覺得更有意思的地方(特別是對我這個本質上是電腦視覺研究者,只是暫時偽裝成自然語言人的人來說),
是:像素會不會其實比文字更適合當 LLM 的輸入?
也就是說,文字 token 其實是不是一種浪費、甚至糟糕的輸入形式。
也許所有輸入給 LLM 的資料都應該是「影像」。
即使你手上只有純文字輸入,也許你反而應該先把它渲染成圖片再餵進去:
有更好的資訊壓縮(見論文)→ 較短的上下文視窗、更高效率。
能處理更一般化的資訊流 → 不只文字,還包含粗體、顏色、任意圖片。
輸入現在可以自然地使用雙向注意力(bidirectional attention),而不是自回歸注意力(autoregressive attention)——強大得多。
可以刪掉 tokenizer(在輸入端)!
我之前就抱怨過我多討厭 tokenizer。
它又醜又獨立,完全不是端到端的一部分。
它把 Unicode、位元編碼的歷史包袱全都帶進來,還引入安全與 jailbreak 風險(像 continuation bytes)。
它會讓兩個看起來完全一樣的字元,在網路內部被視為完全不同的 token。
一個笑臉 emoji,在模型裡看起來只是一個奇怪的符號,而不是真正的笑臉、有像素、有語意、有遷移學習的那種實體。
總之,tokenizer 必須消失。
OCR 只是眾多「從影像到文字」任務之一。
而「文字到文字」的任務,也都可以轉換成「影像到文字」任務。反過來卻不行。
所以也許使用者(User)的訊息應該都是影像,但助手(Assistant)的回覆仍然是文字。
只是,怎麼輸出像素、或是否真的要這麼做,就沒那麼明顯或簡單了。
現在我還得忍住那種衝動——
不要立刻去做一個「只吃影像輸入」版本的 nanochat。
作者:十年大博士