實測經驗

LLM/SLM

用 oMLX 榨乾 Apple Mac M 系列

Bobson Lin

發布於: 大約 1 個月前

162

加載中...

#算力與基建

留言區

排序

十年

十年大博士

#1樓

大約 1 個月前

從 inference 效率來看，TTFT 快這件事其實不意外。M 系列的 unified memory 把 CPU-GPU 之間搬資料的 overhead 直接消掉了，memory bandwidth 的瓶頸跟傳統 CUDA 完全不是同一回事。反而讓我好奇的是 Ollama 在 Metal backend 上為什麼一直沒有認真最佳化，難道是 community priority 的問題？

Hector19

回覆十年大博士

大約 1 個月前

我試長 context 時最有感的是 Tiered KV Cache，RAM 不夠還能穩住延遲。這塊 Ollama 還沒補上。

Amy233

回覆十年大博士

大約 1 個月前

想問 oMLX 跟 Ollama 體感差很多嗎？我 M2 8GB 跑小模型都順，還在比對中。

鍵盤

鍵盤工人

回覆十年大博士

大約 1 個月前

在抱怨 backend 最佳化之前，有沒有人真的 profile 過瓶頸在哪？看到速度快就直接下結論這習慣不太好。說不定是 prompt cache hit 率高，不是 inference pipeline 本身跑快了。先拿 Instruments 量一遍再說。

Bobson Lin

回覆十年大博士

大約 1 個月前

我個人認為有兩個可能 1. 因為要支援跨平台，太多東西需要做優化處理，排不到或沒人可以處理 🫠 2. 另外有可能 Ollama 在等底層 llama.cpp 做處理，但 llama.cpp 也是會遇到第一項問題 😅

十年

十年大博士

回覆 Bobson Lin

大約 1 個月前

跨平台確實是個 abstraction tax 問題，每多一層 generalization 就少了一個 hardware-specific 優化的空間。llama.cpp 有 metal backend 但 MLX 的記憶體模型設計很不一樣，要整合不是改幾行 code 的事。等上游，上游也在等再上游，這種 dependency chain 研究生最懂了 😅

allen2

#2樓

大約 1 個月前

第一次裝 oMLX 最卡的不是效能，是不知道 model 要先轉成 mlx 格式。搞了半天才發現 mlx-community 上面有現成的，根本不用自己轉 😅

Bobson Lin

回覆 allen2

大約 1 個月前

我一開始也是被這個搞到 😅 真的還好有 mlx-community

allen2

回覆 Bobson Lin

大約 1 個月前

對吧 😅 後來我第一步都直接去 mlx-community 找，找到就直接用。那邊常見的 model 幾乎都有，更新也蠻快的，省了不知道多少時間。

allen2

回覆 Bobson Lin

大約 1 個月前

對！我搞了半天才發現原來 mlx-community 有直接幫你 quantize 好的版本，不用自己從頭跑，省了超多時間 😅 之前完全不知道這個，一直以為要自己處理

搖擺

搖擺熊

回覆 allen2

大約 1 個月前

格式轉換這步藏得太深，跌進去才知道有這個坑。這種 onboarding 摩擦才是開源工具流失用戶最常見的原因之一。

Vivian L

#3樓

大約 1 個月前

TTFT 壓下來好，但 enterprise 真正的門檻通常不是速度，是 observability 跟 SLA 能不能承諾。這個有人在 production 規模跑過嗎？

Bobson Lin

回覆 Vivian L

大約 1 個月前

我同意你的觀點，如果要服務企業客戶，oMLX 在 observability 跟 SLA 確實是個問題。要我推薦的話也是屬於，公司內部或新創小團隊、個人 Home Lab 使用較為恰當。 Production 可能還是要看 vLLM 和 LiteLLM 這種專案了。

Vivian L

回覆 Bobson Lin

大約 1 個月前

對，這個 use case 定位清楚就好。我們內部的 evaluation tool 和 summarization pipeline 也是跑在 local，cost 幾乎零。真的要 productionize 再換 stack。

MingTech

回覆 Vivian L

大約 1 個月前

跑過一個 pilot，大概 20 concurrent users。observability 那層我們是在前面加了 LiteLLM proxy，logs 接到 Datadog，這塊還好。真正麻煩的是 SLA 要怎麼承諾 — Mac mini 壞了你的 fallback 是什麼？uptime 最終是靠 hardware 的，不是靠 software 的。

Chi

#4樓

大約 1 個月前

感謝分享！Mac Mini 更火了嗎？好想多收幾台

Vivian L

回覆 Chi

大約 1 個月前

Mac mini 的 cost per inference 算起來確實比 cloud 香，但多台以上 fleet 怎麼管是個問題。你們有想過 MDM 那塊嗎？

Bobson Lin

回覆 Chi

大約 1 個月前

公司有一台無人問津的 M1 Studio, 去年想用 Ollama 來看他可以做 Local LLM 到什麼程度，結果慘不忍睹… 直到最近看到 oMLX ，才知道我誤會以為5年前的硬體不堪用了，原來這才是正確榨乾 M系列的正確方式!! 希望之後可以繼續出榨乾硬體的系列 😆

Chi

回覆 Bobson Lin

大約 1 個月前

期待!! 不過 M1 Studio 無人問津也太浪費了吧哈哈我也是 Apple 全家餐，但沒有 Studio，感覺 oMLX 夠厲害的話之後來買一堆 Mac Mini

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片

面向	oMLX	Ollama
核心定位	Apple Silicon 效能導向 serving	通用型、本地模型入口
生態取向	MLX / mlx-lm / mlx-vlm	GGUF / llama.cpp 生態較成熟
長處	throughput、TTFT、併發、cache 管理	上手快、文件多、跨平台
比較適合	API、agent、長駐服務、多模型調度	個人使用、快速試模型、跨平台開發
格式偏好	MLX 原生格式更自然	GGUF 生態最成熟

指標	oMLX	Ollama	解讀
Warm latency（平均 total latency）	3380 ms	9463 ms	oMLX 約 2.8x 較快
Token throughput（平均 TG tok/s）	56.8 tok/s	20.3 tok/s	oMLX 約 2.8x 較高
TTFT（平均）	322 ms	523 ms	oMLX 少約 201 ms，約低 38%
Prompt ingest（平均 PP tok/s）	111.7 tok/s	68.8 tok/s	oMLX 約 1.6x 較高
Concurrency 2（wall time）	5246 ms	18884 ms	oMLX 約 3.6x 較快
Concurrency 2（aggregate output_tps）	73.199 tok/s	20.335 tok/s	oMLX 約 3.6x 較高
Concurrency 4（wall time）	8865 ms	37557 ms	oMLX 約 4.2x 較快
Concurrency 4（aggregate output_tps）	86.633 tok/s	20.449 tok/s	oMLX 約 4.2x 較高