AI 的可觀測性正在變成標配
最近一直看到 LLM observability 被拿出來講,因為 LLM app 一旦進到 production,你就會發現問題不再是模型強不強,而是到底看不看得見它在做什麼與錯在哪裡,LLM 不是寫完 prompt 就結束,而是會持續漂移的系統。
如果沒有 trace,你很難 debug 一個 agent 為什麼做出那個決策;沒有 eval 的話,每次迭代都只是在賭運氣,可觀測性開始往 OpenTelemetry 這種標準靠攏,代表它正在工程化,成為一個產品所需的東西。
openAI 兩個月前推出的 Agent Builder,也在背後直接幫大家補足這塊;Datadog 這種傳統 observability 大廠也已經把 LLM Observability 拉成一條產品線,還特別強調 agentic system 的監控與實驗流程,這方向已經很明顯了。
但比較有趣的是,在一堆商業工具被討論的同時,Langfuse 這種開源、自架友善的選項,反而很容易被略過。它在 README 裡講得很很清楚它們想把 tracing、metrics、prompt 管理、evaluation、dataset/experiment 這套「把 LLM 工程變成可迭代流程」的骨架都補齊,而且整合對象也很實用。
我個人覺得這背後其實有一個對比很強的現象,也就是現在大家都在求快,追上線追包裝,追一個「看起來能用」的 demo 節奏;但真正會把產品做長、做穩的團隊,最後都會回到同一件事,到底能不能把系統的行為留痕、量化、再把失敗案例變成下一輪迭代的測試資產,這也是為什麼 2025~2026 開始出現一堆「LLM observability 工具比較」等文章(雖然繁中圈好像沒有很多),大家其實是在補一門新時代的基本功。
我自己的共鳴是,這跟我在做知識基礎建設的感覺很像,不把脈絡留下來,不把證據鏈串起來,就只能一直靠記憶跟情緒在迭代。LLM 這邊也是一樣,不把 logs/trace/eval 變成日常,產品很容易就會卡在它怎麼又壞了的循環裡。
總之如果你正在做 RAG、Agent 或任何會碰到 production 的 LLM 功能,推薦可以先看看 Langfuse ,至少把可以很快地把 trace + eval + prompt 管理這套骨架做起來。也期待接下來的版本可以更順地把 OpenTelemetry 的 GenAI 語意規範涵蓋進來,讓 LLM observability 真正變成每個團隊都能直接接上的標準。
作者:Chi