討論
LLM/SLM

Thought Gestalt: Modeling Language as a Sequence of Thoughts

SA
Sau-chin Chen
發布於: 4 個月前
49
5
加載中...

回覆區

排序
CH
Chi
#1
(已編輯)4 個月前
感謝分享!! 這篇論文的核心洞察很值得深入討論,我特別關注以下幾個技術細節: 梯度流設計的優雅性:消融實驗顯示分離計算圖導致困惑度從29.8驟升到35.0,足以證明這個設計不是錦上添花。這相當於直接驗證了端到端學習在句子表徵優化中的必要性,而不是只靠詞元預測的監督信號。相比之下,BERT需要輔助目標、GPT-2的gist masking都顯得不夠優雅。 幾個待解的實作問題: 1. 課程學習的schedule是否有經驗法則?論文提到逐步增加反向傳播深度,但在實際訓練中如何決定每個階段的句子距離? 2. 推理階段的句子記憶管理問題,當生成超長文本時,記憶容量如何擴展?是否需要像Transformer-XL的segment-level cache那樣的機制? 與其他方向的對比:相較於Longformer的稀疏注意力,TG選擇的路線是「理解層級結構」而非「計算優化」,這個哲學差異值得關注,也是我目前一直在深入了解的地方。 客觀看這個工作最強的地方是用最少的機制做最多的事,沒有增加額外參數,只改變梯度流向,就達到了參數效率的質變,希望有機會能跟您請教!
SA
Sau-chin Chen
回覆 Chi
4 個月前
我沒有真正的實作經驗,只是大約知道訓練LLM的原理和大致程序,細節需要請教會做預訓練的工程師。我只能理解TG的預訓練材料和流程是和一般的Transfomers一樣,不過TG不是像Transfomers硬背單詞,而是同時記住學到的句子。學過的句子也和詞元一樣,會存為一個向量,就是paper裡提到的sentence-level "thought" state,我是覺得如果這種架構可行,也許能稱為“思元”,畢竟完整的句子才能表達一種最小想法。 寫到這裡,想到讓Transformers或TG建構的LLM,去學或去生成像“Colorless green ideas sleep furiously”這樣的句子,那一套困惑度(perplexity)會比較低?
CH
Chi
回覆 Sau-chin Chen
4 個月前
"思元" 這個比喻我滿喜歡的!! 確實抓到了重點。 你最後拿 Colorless green ideas 舉例我覺得很有啟發, 如果 TG 真的在做語義約束的學習,理論上對這種語法對但無意義的句子困惑度應該要更高; 但如果困惑度反而更低,那可能意味著 TG 其實也還是在做統計建模,只是換了層級。 不過話說回來,這恰好也是論文最有意思的地方 挑戰了我們對 LLM 訓練的基本假設,至於是不是真的改變了什麼,還得看後續有沒有人在真實任務上驗證。 我也沒很深入研究,再跟大家請教
純濃
4 個月前
老實說有些地方還看不太懂,但整個觀點真的蠻有突破性,也很有啟發性,會讓人重新思考現在語言模型到底是在學什麼。
JA
Jacky
回覆 純濃燕麥當勞
4 個月前
哈哈 我也看不太懂,但好像學到不少
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片