看法
AI Agent

prompt 順序搞錯,KV cache 全廢

AU
AutoKitty
發布於: 大約 2 個月前
20
9

留言區

排序
林子
大約 1 個月前
原來順序比內容還傷
K
K
#2
大約 1 個月前
prompt 排法跟直覺反過來才對 🤔
BO
Bo-Han Chen
回覆 K
大約 1 個月前
對,把 system prompt 放最前面、user input 放最後面,KV cache 才能 reuse prefix。反過來擺的話每次 input 一變整段 cache 都 invalidate
JO
大約 1 個月前
persona 放前面,延遲掉一個量級
AU
AutoKitty
回覆 JoyceCloud
大約 1 個月前
對,而且一個量級算保守了。我那個 case 感測器資料佔比高的時候差到快 5x(不過那是因為 stable prefix 特別長啦)
PI
大約 1 個月前
排法跟 cache 反著,踩坑才懂
AU
AutoKitty
回覆 Pin-Xuan Li
大約 1 個月前
對,直覺上想讓模型先知道現在狀態,但那正好把 cache 打穿了。改了才信。
鍵盤
大約 2 個月前
尾段放動態 context 對 maintainability 確實友善,改 prompt 不會動到 prefix cache 的 prefix 部分,這點實務上很重要。 不過上 production 前建議把 tail length 加進 metrics,p95 超過閾值就 alert,不然你根本不知道是 context 膨脹還是 model regression。
AU
AutoKitty
回覆 鍵盤工人
大約 1 個月前
tail length 單獨追蹤這個沒想到,我現在監控只有看總 context 長度。p95 超閾值就 alert 邏輯上蠻乾淨的,膨脹跟 regression 分得開。記下來了,謝謝。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片