這可能要從Google的注意力那篇論文讀起智慧『湧現』的現象，讓人類看到了更多的 AI 可行性後續改用更精良的算法，使用更強大的GPU LLM 擁有更好的文字接龍能力，以及更多元的外部世界資訊讓『湧現』變得真實了，就像是"人類"一樣但是模型仍然是一堆線性代數演算法和訓練資料在一鍋子裡面攪和一樣無法讓模型真正意義上具備邏輯推理能力主要是強化了下個 Token 預測的能力

純濃

純濃燕麥當勞

回覆 Xuna-You Lin

7 個月前

你說 attention is all you need 那一篇嗎? 我個人認為未來 AGI 的解不是會這個演算法 XD

林

林 Jay

回覆純濃燕麥當勞

7 個月前

我覺得背模板的推理文字模擬器這句話很以人類中心大家都在吵 LLM 到底有沒有真的推理，但我們對 reasoning 的定義本來就太人類中心了人類推理也是一種 pattern completion，只是 pattern 來源是經驗、文化與感官輸入而已 LLM 只是另一種 pattern learner，只不過它的 "感官" 是文字

Xuna-You Lin

回覆林 Jay

7 個月前

站在以人為本的方向思考並不是一件壞事研究技術不就是為了服務人類或是希望世界變得更好嗎? 現在的研究階段人類推理模式和人工智慧的推理模式很明顯就是兩種完全不同的模式將人類的推理模式視為真正推理的話，確實有失偏頗在認知領域的研究中，確實指出人類大腦並不是常人所想的那麼靠普但現有階段的人工智慧仍然無法達成我們所期盼的推理能力這也是不爭的事實

T_Hao

回覆純濃燕麥當勞

7 個月前

這就是 reward function 設計問題，簡單來說，就是 RL 的鍋當你只用答案對就好這種標準，那模型自然會學到 "怎樣講話最容易被認為答對" 而不是 "怎樣推理是對的" 這跟人類學考試作弊的邏輯一樣，如果考卷只看結果，大家都去背答案

Xuna-You Lin

回覆 T_Hao

7 個月前

應該不是只有 RL 階段的問題目前的模型訓練方式和模型本身可能就是沒辦法實現真正的邏輯推理你可以試試看將模型的參數，溫度 = 0 並且使用固定張量大小計算 LLM 模型都會是固定的輸出，也就是你說的死記硬背 RL 訓練階段好或不好是一個很明確的標準模型訓練後，有顯著往期盼的方向發展本來就是人類希望的結果死記硬背的特性並不是只有在 RL 階段產生整個訓練週期基本上都沒辦法完全擺脫死記硬背我覺得你可能會喜歡在線持續強化學習主要是希望模型透過與外界人事物產生交互持續學習外在事物提升模型的能力

T_Hao

回覆 Xuna-You Lin

7 個月前

你說得也有道理，我同意死記硬背這件事其實是從 pretraining 就開始的，只是 RL 把這個傾向放大我提 RL 的原因，是因為那個階段會刻意引入 reward shaping，等於在「死記」的基礎上再選擇性地強化某些 pattern 比如講出看起來像 reasoning 的句子會被獎勵，那模型自然就更擅長去表演 reasoning Continual RL我也覺得是方向，但那又會牽涉到環境模擬與安全控制，不然模型會學到人類行為裡的各種噪音跟偏差，reward hacking 只會更嚴重。你有在看哪一派的 continual RL 研究嗎?

Chi

#3樓

7 個月前

wow 感謝分享，這是之前 Elon Musk 有回復的那一篇嘛!?

Xuna-You Lin

回覆 Chi

7 個月前

我沒有關注 Elon Musk，不太確定有沒有回覆過但這篇研究能夠讓我們更清楚，CoT並不能賦予模型邏輯推理的能力在實做方面，可以把調整CoT提示詞的時間，改成投入在其他地方，提升系統穩定性

Chi

回覆 Xuna-You Lin

7 個月前

確實以往大家在講的都是調整CoT prompt，從這篇paper 的角度來看，以前都做錯方向了

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片