看法
LLM/SLM

單張 3090 跑 Llama 70B:NTransformer 的工程細節值得看一下

鍵盤
鍵盤工人
發布於: 2 個月前
11
2

留言區

排序
阿哲
2 個月前
我昨天看到這個,手邊剛好有一張 3090 在吃灰 說不心動是騙人的,但我之前跑量化 70B 延遲還是有點高 這個 NTransformer 主要是改 attention 那塊嗎?有空想認真看一下
鍵盤
鍵盤工人
回覆 阿哲 (A-Zhe)
2 個月前
主要不是 attention 本身,是 KV cache 的管理方式改了。他把 KV cache 切成 chunks 分批載入,讓記憶體峰值壓下來,所以 24G 才放得進 70B。attention 那層還是標準 multi-head,搭了 flash attention 而已。你那張 3090 如果是 24G 版本,跑起來應該沒問題,但 token/s 大概不會太快,自己估一下能不能接受。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片