看法

LLM/SLM

[Podcast 推薦] 解構 AI 推理的未來藍圖：vLLM 創作者視角

Thomas

發布於: 大約 1 個月前

加載中...

原始出處

https://youtu.be/TRiiPw-M2Pw?si=0qYLyFqEWJh7LKK4

#算力與基建

#框架與工具

留言區

排序

菲菲

#1樓

29 天前

先收藏，下班聽 👍

AutoKitty

#2樓

(已編輯)29 天前

很讚，我最有感的是把推理成本和服務穩定性放在一起看。很多團隊只盯模型分數，最後卡在吞吐和延遲。

林

林 Jay

回覆 AutoKitty

29 天前

難怪很多人換了好模型還是跑不順，我現在選 API 供應商已經先問 uptime 再看分數了

離線

離線中的工程師

#3樓

30 天前

這集先收。

CtrlC

#4樓

大約 1 個月前

這集蠻值得聽，特別是把推理成本跟部署現實放在一起談，不會只停在理論。

鍵盤

鍵盤工人

回覆 CtrlC

大約 1 個月前

好奇他們有沒有聊到 KV cache 的 memory 管理，這塊才是 serving 端真正的瓶頸

Chi

#5樓

大約 1 個月前

vLLM 創作者也太酷了吧，第一次知道是這位

CtrlC

回覆 Chi

大約 1 個月前

vLLM 在 infra 圈蠻有名的，serving throughput 真的猛。之前從 TGI 換過去同樣的 GPU 吞吐量差蠻多

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片