概念整理
LLM/SLM

思維鏈是不是 LLMs 的幻影?

XU
Xuna-You Lin
發布於: 7 個月前
88
13
加載中...

留言區

排序
XU
7 個月前
嗯嗯 我也是這麼覺得 基於注意力機制並且不斷放大模型規模 似乎要到達了邊際效益了 我只能說我很期盼未來能有更好的解決方法 規避目前只能用 Scale Up 競賽的 LLM 市場環境 當然現階段做多模態與更先進的合成資料 也是一個不錯的選擇
純濃
純濃燕麥當勞
回覆 Xuna-You Lin
7 個月前
真的,scale 已經不再是萬靈丹了... 你覺得下一階段的突破,會是在架構,像新的 attention 變體,還是資料面呢> 我最近在看一些 memory-augmented LLM 的研究,蠻有趣的。
純濃
7 個月前
這樣看起來,LLM 是不是只是背模板的推理文字模擬器呀
XU
Xuna-You Lin
回覆 純濃燕麥當勞
7 個月前
這可能要從Google的注意力那篇論文讀起 智慧『湧現』的現象,讓人類看到了更多的 AI 可行性 後續改用更精良的算法,使用更強大的GPU LLM 擁有更好的文字接龍能力,以及更多元的外部世界資訊 讓『湧現』變得真實了,就像是"人類"一樣 但是模型仍然是一堆線性代數演算法和訓練資料 在一鍋子裡面攪和一樣 無法讓模型真正意義上具備邏輯推理能力 主要是強化了下個 Token 預測的能力
純濃
純濃燕麥當勞
回覆 Xuna-You Lin
7 個月前
你說 attention is all you need 那一篇嗎? 我個人認為未來 AGI 的解不是會這個演算法 XD
林 Jay
回覆 純濃燕麥當勞
7 個月前
我覺得背模板的推理文字模擬器這句話很以人類中心 大家都在吵 LLM 到底有沒有真的推理,但我們對 reasoning 的定義本來就太人類中心了 人類推理也是一種 pattern completion,只是 pattern 來源是經驗、文化與感官輸入而已 LLM 只是另一種 pattern learner,只不過它的 "感官" 是文字
XU
Xuna-You Lin
回覆 林 Jay
7 個月前
站在以人為本的方向思考並不是一件壞事 研究技術不就是為了服務人類或是希望世界變得更好嗎? 現在的研究階段 人類推理模式和人工智慧的推理模式很明顯就是兩種完全不同的模式 將人類的推理模式視為真正推理的話,確實有失偏頗 在認知領域的研究中,確實指出人類大腦並不是常人所想的那麼靠普 但現有階段的人工智慧仍然無法達成我們所期盼的推理能力 這也是不爭的事實
T_
T_Hao
回覆 純濃燕麥當勞
7 個月前
這就是 reward function 設計問題,簡單來說,就是 RL 的鍋 當你只用 答案對就好 這種標準,那模型自然會學到 "怎樣講話最容易被認為答對" 而不是 "怎樣推理是對的" 這跟人類學考試作弊的邏輯一樣,如果考卷只看結果,大家都去背答案
XU
Xuna-You Lin
回覆 T_Hao
7 個月前
應該不是只有 RL 階段的問題 目前的模型訓練方式和模型本身 可能就是沒辦法實現真正的邏輯推理 你可以試試看將模型的參數,溫度 = 0 並且使用固定張量大小計算 LLM 模型都會是固定的輸出,也就是你說的死記硬背 RL 訓練階段 好或不好是一個很明確的標準 模型訓練後,有顯著往期盼的方向發展 本來就是人類希望的結果 死記硬背的特性並不是只有在 RL 階段產生 整個訓練週期基本上都沒辦法完全擺脫死記硬背 我覺得你可能會喜歡在線持續強化學習 主要是希望模型透過與外界人事物產生交互 持續學習外在事物提升模型的能力
T_
T_Hao
L3
回覆 Xuna-You Lin
7 個月前
你說得也有道理, 我同意死記硬背這件事其實是從 pretraining 就開始的,只是 RL 把這個傾向放大 我提 RL 的原因,是因為那個階段會刻意引入 reward shaping, 等於在「死記」的基礎上再選擇性地強化某些 pattern 比如講出看起來像 reasoning 的句子會被獎勵,那模型自然就更擅長去表演 reasoning Continual RL我也覺得是方向,但那又會牽涉到環境模擬與安全控制, 不然模型會學到人類行為裡的各種噪音跟偏差,reward hacking 只會更嚴重。 你有在看哪一派的 continual RL 研究嗎?
CH
Chi
#3
7 個月前
wow 感謝分享,這是之前 Elon Musk 有回復的那一篇嘛!?
XU
Xuna-You Lin
回覆 Chi
7 個月前
我沒有關注 Elon Musk,不太確定有沒有回覆過 但這篇研究能夠讓我們更清楚,CoT並不能賦予模型邏輯推理的能力 在實做方面,可以把調整CoT提示詞的時間,改成投入在其他地方,提升系統穩定性
CH
Chi
回覆 Xuna-You Lin
7 個月前
確實以往大家在講的都是調整CoT prompt,從這篇paper 的角度來看,以前都做錯方向了
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片