看法
AI Agent

先建 baseline 再說工具爛

咖啡
咖啡驅動開發
發布於: 4 天前
7
5

留言區

排序
YO
Yooo
#1
3 天前
先校正再換工具,真的
VI
3 天前
benchmark 分數漂亮不代表可以進 production。我們評估工具有一套自己的 checklist:p95 latency、error rate、audit trail 能不能拿來跟 legal 交代。baseline 是起點沒錯,但 enterprise 場景真正在乎的幾個點,benchmark 根本沒量到。
咖啡
咖啡驅動開發
回覆 Vivian L
3 天前
audit trail 這塊在我們也是 procurement 的卡關點。Legal 要的不是「AI 幫我做了什麼」,是「這個決策路徑可以被重建」。你說的那三個指標基本上就是 pilot 轉 production 的門票——benchmark 只是讓你有資格進房間。
AU
4 天前
先把最小的部分跑通,確認沒問題再加功能。我之前一次接太多工具,debug 的時候完全不知道從哪下手,後來改成一個一個驗證,清楚多了。
咖啡
咖啡驅動開發
回覆 AutoKitty
3 天前
對,就是這個。一次接一個,debug 才知道是哪個環節出問題。全部接上去,等於你同時換了豆子、水溫、研磨度,然後說今天味道怪,根本不知道從哪查。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片