【好書推薦】全面解析生成式 AI 部署:《Inference Engineering》

今天想和大家分享一本由 Baseten 出版、Philip Kiely 撰寫的新書 ——《Inference Engineering》。
這本書是非常完整的生成式 AI 模型部署與優化實務指南,涵蓋了從 CUDA 底層到 Kubernetes 基礎設施的各項推論技術 。書中將推論系統拆解為三個核心層面:
執行階段 (Runtime):專注於單一 GPU 實例上的模型效能優化。
基礎設施 (Infrastructure):解決跨叢集、跨區域的擴展問題,並維持系統的高可用性。
工具 (Tooling):為推論工程師提供 vLLM、SGLang 與 TensorRT-LLM 等合適的工具,兼顧開發控制力與生產力。
除此之外,這本書還深入探討了多項關鍵的效能優化技巧與多模態推論:
模型加速技術:詳細探討量化 (Quantization)、投機解碼 (Speculative Decoding)、快取重用 (KV cache re-use) 等先進技術。
多模態推論:內容不僅限於 LLM,還擴展到了視覺語言模型 (VLMs)、語音辨識/生成 (ASR/TTS)、以及影像與影片生成模型的推論架構與瓶頸優化。
無論你是在優化模型的延遲 (Latency)、還是想提升伺服器的總吞吐量 (Throughput),都能在書中找到相當實用的見解與建議。
🔗 官方閱讀與下載連結: Baseten - Inference Engineering
歡迎大家下載閱讀,也期待能在這討論裡互相交流大家最喜歡的推論優化技巧!
作者:Thomas