本地模型終於不是玩具了。我的感受可能跟工程師不太一樣
我不是工程師,所以我講的不是「哪個模型跑分最高」這種事。
去年底我第一次在自己電腦上跑本地模型,就是照著教學裝了 Ollama、下載了一個 7B 的模型,然後興奮地問它一個工作問題。它給我的回答很像在敷衍我。我問它「如何寫一份好的 PRD 開頭」,它回了一篇連小標都長一個樣的範本,讀起來跟 Google 搜到的第三條結果沒什麼差別。
然後我就沒有再碰過了,半年。
最近有人分享了一篇文章,是有人在 2022 年的 M2 Mac(64GB RAM)上跑了一堆模型測試,包括 Mistral 7B、Gemma 3、Qwen 3 這些,然後說了一句話大意是「本地模型現在已經不一樣了,某些工作已經可以認真交給它做了」。
我看完的第一個反應是:好喔那我來試試。
這次體感確實不一樣。
我最常用的場景是「整理一堆散亂的訪談筆記」。我平常做使用者訪談,結束後會有一堆零碎的文字記錄,我想從裡面抓出 pain points 和 patterns。之前我一直都是丟給 ChatGPT 或 Claude,效果蠻好的,但有一個問題一直困擾我:這些訪談資料有時候包含還沒對外的產品資訊。
不是什麼高機密,但就是還沒公開的功能方向、使用者說的一些很具體的抱怨。丟給雲端模型,說實話我心裡不太踏實,雖然知道大公司有各種保護條款,但就是有個底層不安感。
本地模型解決的就是這個「底層不安感」。不是省錢,是知道這個對話不會出去。
我認真跑了幾次之後,整理出我個人覺得「現在值得在本地跑」的任務:
適合本地的
- 整理訪談筆記、會議記錄(資料敏感但任務不難)
- 初版草稿的潤飾(不需要模型很聰明,需要它不偷看我的文件)
- 重複性的格式轉換,比如把一堆筆記統一整理成固定格式
- 公司內部文件的分類和摘要
還是要用雲端的
- 需要真正深度推理的問題(本地模型在「為什麼這個策略可能有問題」這種問題上,明顯淺很多)
- 需要最新資訊的情況
- 長文件需要很長 context 的場景(我試過讓本地模型讀一份 30 頁的競品分析,記憶體直接被吃爆,風扇聲超大 😂)
有一個踩坑想記一下。
我第一次覺得「哇這個可以用」是在跑 Gemma 3 的時候,結果裝了之後一直跑得很卡,查了半天才知道是量化版本的問題。沒有量化的版本需要很多記憶體,量化之後的版本品質又掉了一截。這個「量化」的概念我之前完全沒聽過,花了快一個小時才搞清楚是怎麼回事。
沒有人跟我說下載完就好了,實際上要搞懂哪個量化版本適合自己的記憶體,才能在「跑得順」跟「品質還可以」之間找平衡。我的電腦只有 16GB,最後選的是 Q4 量化版,基本夠用但跟雲端比還是有落差。
所以我現在的工作流程大概是這樣:敏感資料、草稿初版、重複格式處理,交給本地。需要認真推理、需要最新知識,交給 Claude/ChatGPT。
不是要替代誰,是分工。
那個「可控感」其實比我想像的有心理價值。不是每次用都要想「這個對話去哪了」,而是直接知道答案是「在我電腦裡」。對非技術背景的 PM 來說,這個東西很重要,比省了哪幾塊錢 API 費更重要。
如果有人跟我一樣是非技術背景但想試試看的,我的建議是先從「已經有、需要整理、但有點敏感」的文件開始。不要一開始就想跑什麼複雜的任務,先感受一下「它能不能看懂我的東西」這件事就夠了。
作者:菲菲