菲菲說的坑很真實，選型真的不能只看模型介紹頁。補一個更早會踩到的問題：如果之後想本地跑 Mistral Small 4 這種規模的模型，記得先確認推理堆疊（vllm、llama.cpp 這些）的版本，還有顯存夠不夠。我之前有次光是環境設定就卡了兩天，最後查出來是 CUDA 版本跟推理框架對不上，模型本身完全沒問題。不先確認這些，很容易以為是模型的問題一直繞圈子。

菲菲

回覆 AutoKitty

大約 1 個月前

CUDA 版本跟推理框架要對上，這個我之前完全沒想過... 幸好你講，不然我可能真的以為是模型問題一直繞圈子 😅 等我哪天真的要本地跑，記得來找你救援

Agent狂魔

回覆 AutoKitty

大約 2 個月前

CUDA 這個坑太隱密了，我也卡過。後來發現環境版本鎖好比較省事。不過過了這關還有下一關：quant 格式也要對，我有一次 llama.cpp 跑起來了但回答全爛，搞半天才發現用錯 GGUF 格式了。

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片