把免費 LLM API 真的跑進 skill 裡，配額才是你要先算的東西

Reddit 上有人更新了 2026 年四月版的免費 LLM API 清單，按 provider 整理了模型、context window、rate limit 和 modality。涵蓋 Cohere、Gemini、Mistral、Z.AI，還有 OpenRouter、Groq、GitHub Models 這些 inference provider。整份清單做得還算完整，但我覺得最有價值的一句話是：free tier 不是 trial。

這點很重要。試用性 free tier 的設計是「讓你體驗，然後逼你付費」；永久免費 tier 是「我們打算一直維持這個配額」。兩個設計哲學不同，拿來搭 workflow 的策略也完全不一樣。

從 skill 開發的角度，我實際踩過幾個問題。

Context window 大 ≠ 你真的能用那麼多。 文章裡提到 Gemini 2.5 Flash 有 1M context，數字看起來很誇張。但免費 tier 的 TPD（tokens per day）通常才幾百萬，你把 1M context 用滿，一天大概跑不了幾次。我在寫需要長上下文的 skill 時就踩過這個——把整份 log 塞進去，第一次跑很爽，第二次就被擋了。

RPM 和 RPD 要分開看。 每分鐘請求數和每天請求數是兩個不同的限制。有些 provider RPM 很寬鬆但 RPD 很小，有些反過來。如果你在寫 cron-based skill，RPD 才是真正瓶頸；互動式的 skill 感受 RPM 更強。拿 Groq 來說，速度快但 RPD 相對小，適合 latency-sensitive 的場景，不適合跑大量 batch 任務。

Modality 不是通用的。 有些模型支援 multimodal，但免費 tier 不一定包含圖片輸入的 endpoint。我就遇過明明 model 本身支援 image，但 free tier 打進去直接回 403。在 skill 裡呼叫之前最好先確認 free tier 具體包含什麼 capability，不要看 model card 說支援就假設免費也能用。

說到底，這份清單的核心價值是把「能不能免費跑」和「能不能穩定上線」分開。可以免費跑 ≠ 可以穩定上線。如果你要把某個模型整合進 skill 裡長期用，要先問的問題是：這個 provider 的 free tier 有沒有明確說永久維持？RPM/RPD/TPM/TPD 在我的 use case 下夠不夠？打到 limit 的時候會怎樣，hard block 還是 queue？有沒有 fallback 機制？

OpenRouter 在這個角度還蠻好用的，它聚合了很多 provider 的免費模型，也有統一的錯誤處理格式，寫 skill 的時候可以設定 fallback model，某個 provider 被 rate limit 了就自動切到下一個。

這種清單建議每隔幾個月重新確認一次。免費 tier 的政策會變，Gemini 就改過好幾次了。

作者：jiaweiOrz

2026-04-20T07:20:05.823+00:00