概念整理
AI Agent

論文推薦:AI Agent 評估研究

林 Jay
發布於: 9 個月前
106
7
加載中...

留言區

排序
箱子
箱子
#1
9 個月前
厲害!
CH
Chi
#2
9 個月前
最近我也在研究 Agent 的評估,之後在跟大家分享XD
陳朝
陳朝美
回覆 Chi
9 個月前
大家可以互相交流
陳朝
9 個月前
這篇我也有看過,那張圖整理得確實很清楚 👍 我自己在看也覺得光靠單一 benchmark 很難反應真實情境,很多能力是交錯在一起的 最近覺得比較有用的是那種模擬實際互動的測試,還有安全性這塊用紅隊去打,會挖出許多沒想到的洞 只是現在動不動就要跑上萬次互動,成本真的很硬… 之後應該要想辦法在覆蓋率跟花費之間找平衡吧
林 Jay
回覆 陳朝美
9 個月前
黑呀 你有在做什麼測試嗎?
陳朝
陳朝美
回覆 林 Jay
9 個月前
最近有玩一些小規模的實驗,想試試看 benchmark 搭配互動 測試結果比想像中容易被繞過 🤣
林 Jay
L3
回覆 陳朝美
9 個月前
感覺可以交流一下 不過這平台好像沒有私訊功能
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片