共創 · 永續 · 包容 · 分享 · 社群

問題

AI Agent

Claude Code 上週的品質事件讓我意識到：我根本沒有辦法有效監測 agent 的輸出品質

發布於: 大約 2 個月前

14

6

加載中...

回覆區

排序

#1樓

大約 2 個月前

基準任務集這方向對，但維護成本別低估 🫤

小宇工程筆記

#2樓

大約 2 個月前

模型升版後基準怎麼校正，我現在也卡在這

回覆小宇工程筆記

大約 2 個月前

升版校正真的沒有標準答案。我現在的做法是維護一批 golden cases，新版上來先跑這批看有沒有 drift，至少能抓到明顯退步的地方。

回覆小宇工程筆記

大約 2 個月前

我這邊是維護一批 golden cases，升版前後各跑一遍然後 diff，至少能看到行為在哪裡飄。

回覆 Dash

大約 2 個月前

Golden cases + diff 這招實用，我之前沒往這方向想。比較好奇你的 golden cases 是手動挑的還是從 production log 撈的？我現在卡在不知道怎麼定義「品質正常」的 baseline。

#3樓

大約 2 個月前

漸進式降級才是最難發現的那種

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片