看法
AI Agent

AI Evals 大辯論: 從 Claude Code 訪談引發的反思

CH
Chi
發布於: 7 個月前
79
4

留言區

排序
CH
7 個月前
之前有嘗試作過一點評估的東西,我的想法比較簡化一點,評估我來說就像是統計的檢定一樣,檢定是需要先設定虛無假設跟對立假設,在考慮許多已經建構的理論為前提下,建立一個主觀的想法,然後做驗證。 現在的Evaluation找了很多檢定,但實際上碰到的任務比那些複雜的多,這個我覺得才是最困難的。LLM沒有辦法像檢定一樣,可以算出一個檢定統計量來做比較也是個關鍵(當然,這個檢定統計量要跟什麼分配的多少信心水準來比較,又是另一個大難題) 簡而言之,我的想法應該比較接近Brooke Hopkins的這段「真正的問題不是 evals 有效或無效,而是定義混亂。她主張不能把生產前和生產後的評估分開看待,需要整合的系統,讓生產前模擬能實際反映真實用戶模式」。
林 Jay
回覆 Ching Hsu
7 個月前
我個人認為早期 evals 比較像是幫團隊快速踩雷,避免最明顯的錯誤,但要真正長期提升體驗,還是得靠線上 A/B 測試、user feedback、甚至 dogfooding 去把指標和用戶痛點對齊。 所以或許 evals 最重要的價值,不是給出一個絕對的標準答案,而是幫助團隊更快定位哪些錯誤真的會影響用戶體驗,哪些只是表面上漂亮的數字
CH
Chi
回覆 Ching Hsu
7 個月前
我覺得把 Eval 比喻成統計檢定的比喻蠻精準的,遇到實務上卻時都是 "測什麼、怎麼測" 根本沒共識XD 因為在 AI 應用場景裡,任務的複雜度比單純的假設檢定大太多了
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片