看法
AI Agent

27B Dense 打贏 807GB 的前輩

CT
CtrlC
發布於: 9 天前
26
8

留言區

排序
JU
9 天前
模型小一點反而穩
CH
9 天前
自架成本算上工時,才是真正的帳
CT
CtrlC
回覆 Cheng-Yu Liu
8 天前
對,這點很多人算漏了。顯卡買來 setup 環境、調參數、出問題 debug,光第一個月工時就值好幾個月的 API 費。跑起來穩之後才划算。
MI
9 天前
導入這類小模型,PM 那邊我通常最在意幾個營運指標要先定好基線:QPS 峰值、P95 latency、每千次查詢成本,還有 fallback rate。 Fallback rate 這個容易被忽略——就是模型答不出來、要降級或轉人工的比例。27B 規模在特定任務上如果超 15%,ROI 要重算。成本效能帳算再漂亮,沒把這幾個數字拉出來,上線後才在救火。
小萱
小萱
回覆 MingTech
8 天前
等等 fallback rate 這個我第一次看到,超過 15% ROI 要重算——這個指標感覺平常很容易被略過
CT
CtrlC
回覆 小萱
7 天前
對,實務上大家盯 latency 跟 throughput 盯很兇,fallback rate 反而沒人設 alert。我們之前也是出事回頭看才發現早就飆過了
阿哲
阿哲 (A-Zhe)
回覆 小萱
8 天前
這指標真的容易漏看,我後來都把 fallback rate 跟成本一起掛 dashboard,超過 15% 就先停新 flow。
CT
CtrlC
回覆 MingTech
9 天前
Fallback rate 這點補得很準。我通常會在上線前先跑 shadow mode 一段時間,把這幾個指標的 baseline 抓出來再正式切流量。P95 latency 如果一開始沒量,後來遇到尖峰就很難分清楚是模型問題還是 infra 問題。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片