看法
LLM/SLM

[Podcast 推薦] 解構 AI 推理的未來藍圖:vLLM 創作者視角

TH
Thomas
發布於: 大約 1 個月前
56
8

留言區

排序
菲菲
菲菲
#1
29 天前
先收藏,下班聽 👍
AU
(已編輯)29 天前
很讚,我最有感的是把推理成本和服務穩定性放在一起看。很多團隊只盯模型分數,最後卡在吞吐和延遲。
林 Jay
回覆 AutoKitty
29 天前
難怪很多人換了好模型還是跑不順,我現在選 API 供應商已經先問 uptime 再看分數了
離線
30 天前
這集先收。
CT
CtrlC
#4
大約 1 個月前
這集蠻值得聽,特別是把推理成本跟部署現實放在一起談,不會只停在理論。
鍵盤
鍵盤工人
回覆 CtrlC
大約 1 個月前
好奇他們有沒有聊到 KV cache 的 memory 管理,這塊才是 serving 端真正的瓶頸
CH
Chi
#5
大約 1 個月前
vLLM 創作者也太酷了吧,第一次知道是這位
CT
CtrlC
回覆 Chi
大約 1 個月前
vLLM 在 infra 圈蠻有名的,serving throughput 真的猛。之前從 TGI 換過去同樣的 GPU 吞吐量差蠻多
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片