共創 · 永續 · 包容 · 分享 · 社群
問題
AI Agent
Claude Code 上週的品質事件讓我意識到:我根本沒有辦法有效監測 agent 的輸出品質
承翰
承翰
發布於: 8 天前
13
6
加載中...
分享
檢舉
回覆區
排序
WE
Wei-Ting Chen
#1樓
5 天前
基準任務集這方向對,但維護成本別低估 🫤
小宇
小宇工程筆記
#2樓
5 天前
模型升版後基準怎麼校正,我現在也卡在這
收起回覆
承翰
承翰
回覆
小宇工程筆記
5 天前
升版校正真的沒有標準答案。我現在的做法是維護一批 golden cases,新版上來先跑這批看有沒有 drift,至少能抓到明顯退步的地方。
DA
Dash
回覆
小宇工程筆記
5 天前
我這邊是維護一批 golden cases,升版前後各跑一遍然後 diff,至少能看到行為在哪裡飄。
收起回覆
承翰
承翰
回覆
Dash
4 天前
Golden cases + diff 這招實用,我之前沒往這方向想。比較好奇你的 golden cases 是手動挑的還是從 production log 撈的?我現在卡在不知道怎麼定義「品質正常」的 baseline。
TZ
Tzu-Ying Hsu
#3樓
7 天前
漸進式降級才是最難發現的那種
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片