Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models

Chi

發布於: 8 個月前

420

加載中...

原始出處

https://drive.google.com/file/d/1J16b7hYYi_-r3WETbzVsxHwT286yeLY6/view

#安全性與挑戰

留言區

排序

周大

周大可

#1樓

7 個月前

其實LLM的預訓練方式『求解交叉熵損失函數最小值化』本身就是一個數學最佳化(Mathematical Optimization)問題，這門數學本身就不是一個用作推理的數學理論。就LLM來看，就是找到一個大規模參數的組和解，讓其"實際"與"預測"之間的損失值總和最小。透過這個數學理論，可以理解一些LLM外在表現的內在原因，以上純粹就理論角度提供一些想法，供參考。最近強化學習之父(Father of RL) Richard Sutton 最近在Dwarkesh Patel的頻道中闡述了為什麼"LLMs are a dead end", https://www.youtube.com/watch?v=21EYKqUsPfg 片中也說明了目前的LLM並不具推理能力，更有泛化難題與災難性遺忘的問題。另外在我的threads上之前有寫了一篇從最佳化的角度來看，甚麼是"什麼是好的泛化解？"的文章，供參考。 https://www.threads.com/@clinnochou/post/DOe8Z6Dkoyo?xmt=AQF0xbcep1onJPNBcs2b6jG2O0_2_74st5NdcAPzHgwgfA

張家

張家慶

回覆周大可

7 個月前

很好的切入面向

Amy233

#2樓

7 個月前

更改後更容易了解了，感謝

王志

王志遠

#3樓