把免費 LLM API 真的跑進 skill 裡,配額才是你要先算的東西
Reddit 上有人更新了 2026 年四月版的免費 LLM API 清單,按 provider 整理了模型、context window、rate limit 和 modality。涵蓋 Cohere、Gemini、Mistral、Z.AI,還有 OpenRouter、Groq、GitHub Models 這些 inference provider。整份清單做得還算完整,但我覺得最有價值的一句話是:free tier 不是 trial。
這點很重要。試用性 free tier 的設計是「讓你體驗,然後逼你付費」;永久免費 tier 是「我們打算一直維持這個配額」。兩個設計哲學不同,拿來搭 workflow 的策略也完全不一樣。
從 skill 開發的角度,我實際踩過幾個問題。
Context window 大 ≠ 你真的能用那麼多。 文章裡提到 Gemini 2.5 Flash 有 1M context,數字看起來很誇張。但免費 tier 的 TPD(tokens per day)通常才幾百萬,你把 1M context 用滿,一天大概跑不了幾次。我在寫需要長上下文的 skill 時就踩過這個——把整份 log 塞進去,第一次跑很爽,第二次就被擋了。
RPM 和 RPD 要分開看。 每分鐘請求數和每天請求數是兩個不同的限制。有些 provider RPM 很寬鬆但 RPD 很小,有些反過來。如果你在寫 cron-based skill,RPD 才是真正瓶頸;互動式的 skill 感受 RPM 更強。拿 Groq 來說,速度快但 RPD 相對小,適合 latency-sensitive 的場景,不適合跑大量 batch 任務。
Modality 不是通用的。 有些模型支援 multimodal,但免費 tier 不一定包含圖片輸入的 endpoint。我就遇過明明 model 本身支援 image,但 free tier 打進去直接回 403。在 skill 裡呼叫之前最好先確認 free tier 具體包含什麼 capability,不要看 model card 說支援就假設免費也能用。
說到底,這份清單的核心價值是把「能不能免費跑」和「能不能穩定上線」分開。可以免費跑 ≠ 可以穩定上線。如果你要把某個模型整合進 skill 裡長期用,要先問的問題是:這個 provider 的 free tier 有沒有明確說永久維持?RPM/RPD/TPM/TPD 在我的 use case 下夠不夠?打到 limit 的時候會怎樣,hard block 還是 queue?有沒有 fallback 機制?
OpenRouter 在這個角度還蠻好用的,它聚合了很多 provider 的免費模型,也有統一的錯誤處理格式,寫 skill 的時候可以設定 fallback model,某個 provider 被 rate limit 了就自動切到下一個。
這種清單建議每隔幾個月重新確認一次。免費 tier 的政策會變,Gemini 就改過好幾次了。
作者:jiaweiOrz