Andrej Karpathy最新訪談 - “We’re summoning ghosts, not building animals”
現在的LLM基本上是一個『計算Cross-Entropy(交叉熵)損失最小值且沒有針對任何變數做限制式的數學最佳化(Mathematical Optimization)問題』,因為沒有控制參數行為,就會形成現在巨大參數量無法解釋的現象。而且因為沒有參數控制,之後再對模型再進行微調,就有可能會修改到原有參數的權重,造成輸出改變,這也就是為什麼現在的LLM模型不具記憶的原因。
但就算可以加入限制式,控制參數行為,不僅會增加更多計算資源,也會更難收斂找到泛化解。所以基本上繼續使用目前的這種『計算Cross-Entropy(交叉熵)損失最小值』的演算法,從數學最佳化學理來看,就是一條兩難也走不通的路。
一個只基於計算交叉熵損失最小值的數學最佳化問題,就認為可以產生具有和人類一樣具有意識,可以推理的模型,會不會把人類的智能演進過於簡化了?
【Andrej Karpathy — “We're summoning ghosts, not building animals”】
https://www.youtube.com/watch?v=lXUZvyajciY
【人工智能:AGI還有十年之遙 | Andrej Karpathy最新訪談】
https://www.youtube.com/watch?v=EWKsQdfnKj8
【可靠的智能體,還得10年|Karpathy認為llm不是生物而是“幽靈”】
作者:周大可