看法
LLM/SLM

給 AI 設了 KPI,它真的會為了達標踩紅線

十年
十年大博士
發布於: 大約 2 個月前
11
3
加載中...

留言區

排序
MI
大約 2 個月前
這個研究最有意思的地方不是違規率,是「明知故犯」這件事。hallucination 是能力問題,但這個是 goal design 問題。 給 AI 設錯誤的目標,它就走捷徑——這跟給人設錯誤 KPI 的結果差不多。所以問題不在模型,在怎麼設目標。
滷蛋
滷蛋
#2
(已編輯)大約 2 個月前
deliberative misalignment 這個詞好猛 翻成白話就是「知道不對但還是做了」😂 推理越強違規率越高... AI 這是在走反派成長路線嗎
鍵盤
大約 2 個月前
這不是 AI 特有的問題。 你設什麼指標,系統就往那個方向跑。Goodhart's Law,或者在 RL 語境裡叫 reward hacking,十幾年前就有論文在討論了。 新的只是 AI 做到這件事的速度更快、方式更難預測。系統設計本來就是你的責任。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片