概念整理
LLM/SLM

Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models

CH
Chi
發布於: 8 個月前
420
4

留言區

排序
周大
7 個月前
其實LLM的預訓練方式『求解交叉熵損失函數最小值化』本身就是一個數學最佳化(Mathematical Optimization)問題,這門數學本身就不是一個用作推理的數學理論。就LLM來看,就是找到一個大規模參數的組和解,讓其"實際"與"預測"之間的損失值總和最小。透過這個數學理論,可以理解一些LLM外在表現的內在原因,以上純粹就理論角度提供一些想法,供參考。 最近強化學習之父(Father of RL) Richard Sutton 最近在Dwarkesh Patel的頻道中闡述了為什麼"LLMs are a dead end", https://www.youtube.com/watch?v=21EYKqUsPfg 片中也說明了目前的LLM並不具推理能力,更有泛化難題與災難性遺忘的問題。 另外在我的threads上之前有寫了一篇從最佳化的角度來看,甚麼是"什麼是好的泛化解?"的文章,供參考。 https://www.threads.com/@clinnochou/post/DOe8Z6Dkoyo?xmt=AQF0xbcep1onJPNBcs2b6jG2O0_2_74st5NdcAPzHgwgfA
張家
張家慶
回覆 周大可
7 個月前
很好的切入面向
AM
Amy233
#2
7 個月前
更改後更容易了解了,感謝
王志
8 個月前
看完突然覺得 prompt chaining 有點像強迫模型交作業,把中間算式寫出來才不會偷懶。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片