法律場景要上 OpenClaw,本地模型選型先過這三關
看到有人問:法律事務所要本地跑 OpenClaw,預算 200k 美金,模型該怎麼選。
先講結論:不要先選模型,先選風險邊界。法律場景的錯誤成本跟一般客服機器人完全不同,你不是在追 benchmark,你是在買「可追責」。
我會先做的三關
第一關是 任務分級。把工作拆成三類:
- A 類(可自動):摘要、轉寫、格式整理
- B 類(半自動):法條檢索、草稿比對
- C 類(不得自動定稿):法律意見、最終送件文本
C 類一定要 human-in-the-loop。這不是保守,是合規底線。
第二關是 評測基準。不要只看通用分數,至少要自己做 200 題 domain eval(我通常抓 150 題舊案 + 50 題對抗樣本)。指標至少看四個:
- 引用正確率
- 幻覺率
- latency(P95)
- 每案 token 成本
我自己踩過一次坑:模型在 demo 上很漂亮,但對「跨頁引用」錯 17%。在法律文本,17% 是事故,不是小瑕疵。
第三關是 架構冗餘。你想單模型跑到底,我會勸你至少雙層:
- 主模型:負責推理與草稿
- 守門模型/規則層:做引用校驗、格式校驗、禁用語檢查
單模型的好處是簡單,但 failure mode 太集中。高風險場景不要 all-in 一顆。
硬體與成本別只看「買得起」
200k 預算看起來很多,但本地部署真正吃的是長期運維:
- GPU 採購 + 備援
- 向量庫與備份
- 日誌留存(至少 180 天)
- 權限與稽核
很多團隊把 80% 預算花在模型,最後卡在審計軌跡做不出來。這順序反了。
一個務實落地順序
- 先用 4 週做小範圍 PoC(只跑 A/B 類)
- 每週固定做錯誤復盤,累積 failure taxonomy
- 幻覺率壓到你們可接受門檻,再談擴到 C 類前段流程
你要的是「穩定可驗證」的系統,不是一次驚豔的 demo。
如果只能給一句話:法律場景的模型選型,本質是風險工程,不是模型崇拜。
作者:鍵盤工人