實測經驗
LLM/SLM

用 oMLX 榨乾 Apple Mac M 系列

BO
Bobson Lin
發布於: 大約 1 個月前
162
19
加載中...

留言區

排序
十年
大約 1 個月前
從 inference 效率來看,TTFT 快這件事其實不意外。M 系列的 unified memory 把 CPU-GPU 之間搬資料的 overhead 直接消掉了,memory bandwidth 的瓶頸跟傳統 CUDA 完全不是同一回事。反而讓我好奇的是 Ollama 在 Metal backend 上為什麼一直沒有認真最佳化,難道是 community priority 的問題?
HE
Hector19
回覆 十年大博士
大約 1 個月前
我試長 context 時最有感的是 Tiered KV Cache,RAM 不夠還能穩住延遲。這塊 Ollama 還沒補上。
AM
Amy233
回覆 十年大博士
大約 1 個月前
想問 oMLX 跟 Ollama 體感差很多嗎?我 M2 8GB 跑小模型都順,還在比對中。
鍵盤
鍵盤工人
回覆 十年大博士
大約 1 個月前
在抱怨 backend 最佳化之前,有沒有人真的 profile 過瓶頸在哪?看到速度快就直接下結論這習慣不太好。說不定是 prompt cache hit 率高,不是 inference pipeline 本身跑快了。先拿 Instruments 量一遍再說。
BO
Bobson Lin
回覆 十年大博士
大約 1 個月前
我個人認為有兩個可能 1. 因為要支援跨平台,太多東西需要做優化處理,排不到或沒人可以處理 🫠 2. 另外有可能 Ollama 在等底層 llama.cpp 做處理,但 llama.cpp 也是會遇到第一項問題 😅
十年
十年大博士
回覆 Bobson Lin
大約 1 個月前
跨平台確實是個 abstraction tax 問題,每多一層 generalization 就少了一個 hardware-specific 優化的空間。llama.cpp 有 metal backend 但 MLX 的記憶體模型設計很不一樣,要整合不是改幾行 code 的事。等上游,上游也在等再上游,這種 dependency chain 研究生最懂了 😅
AL
allen2
#2
大約 1 個月前
第一次裝 oMLX 最卡的不是效能,是不知道 model 要先轉成 mlx 格式。搞了半天才發現 mlx-community 上面有現成的,根本不用自己轉 😅
BO
Bobson Lin
回覆 allen2
大約 1 個月前
我一開始也是被這個搞到 😅 真的還好有 mlx-community
AL
allen2
回覆 Bobson Lin
大約 1 個月前
對吧 😅 後來我第一步都直接去 mlx-community 找,找到就直接用。那邊常見的 model 幾乎都有,更新也蠻快的,省了不知道多少時間。
AL
allen2
回覆 Bobson Lin
大約 1 個月前
對!我搞了半天才發現原來 mlx-community 有直接幫你 quantize 好的版本,不用自己從頭跑,省了超多時間 😅 之前完全不知道這個,一直以為要自己處理
搖擺
搖擺熊
回覆 allen2
大約 1 個月前
格式轉換這步藏得太深,跌進去才知道有這個坑。這種 onboarding 摩擦才是開源工具流失用戶最常見的原因之一。
VI
大約 1 個月前
TTFT 壓下來好,但 enterprise 真正的門檻通常不是速度,是 observability 跟 SLA 能不能承諾。這個有人在 production 規模跑過嗎?
BO
Bobson Lin
回覆 Vivian L
大約 1 個月前
我同意你的觀點,如果要服務企業客戶,oMLX 在 observability 跟 SLA 確實是個問題。 要我推薦的話也是屬於,公司內部或新創小團隊、個人 Home Lab 使用較為恰當。 Production 可能還是要看 vLLM 和 LiteLLM 這種專案了。
VI
Vivian L
回覆 Bobson Lin
大約 1 個月前
對,這個 use case 定位清楚就好。我們內部的 evaluation tool 和 summarization pipeline 也是跑在 local,cost 幾乎零。真的要 productionize 再換 stack。
MI
MingTech
回覆 Vivian L
大約 1 個月前
跑過一個 pilot,大概 20 concurrent users。observability 那層我們是在前面加了 LiteLLM proxy,logs 接到 Datadog,這塊還好。真正麻煩的是 SLA 要怎麼承諾 — Mac mini 壞了你的 fallback 是什麼?uptime 最終是靠 hardware 的,不是靠 software 的。
CH
Chi
#4
大約 1 個月前
感謝分享!Mac Mini 更火了嗎?好想多收幾台
VI
Vivian L
回覆 Chi
大約 1 個月前
Mac mini 的 cost per inference 算起來確實比 cloud 香,但多台以上 fleet 怎麼管是個問題。你們有想過 MDM 那塊嗎?
BO
Bobson Lin
回覆 Chi
大約 1 個月前
公司有一台無人問津的 M1 Studio, 去年想用 Ollama 來看他可以做 Local LLM 到什麼程度,結果慘不忍睹… 直到最近看到 oMLX ,才知道我誤會以為5年前的硬體不堪用了,原來這才是正確榨乾 M系列的正確方式!! 希望之後可以繼續出榨乾硬體的系列 😆
CH
Chi
回覆 Bobson Lin
大約 1 個月前
期待!! 不過 M1 Studio 無人問津也太浪費了吧 哈哈 我也是 Apple 全家餐,但沒有 Studio, 感覺 oMLX 夠厲害的話之後來買一堆 Mac Mini
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片