思維鏈是不是 LLMs 的幻影?
須知
該研究使用了不同規模大小的模型,皆發現相似情況。
三種實驗
任務泛化:
訓練 A 任務,推理 B 任務:模型幾乎沒辦法判斷。
少量微調後:模型很快就學會了解決 B 任務。
訓練 A->B 任務,推理 B->A 任務:模型無法有效泛化。
可佐證:模型不具備任務(知識)泛化的能力。
長度泛化:
訓練資料長度固定(例如 'A->B x 2' ),推理 A x 1 或 A x 3 任務:模型無法有效泛化。
可佐證:訓練資料的長度會影響模型最終結果。
格式泛化:
訓練 C 格式,推理使用 D 格式:模型輸出效果變差。
可佐證:模型不具備格式泛化能力,使用新的格式會導致性能下降。
總結
CoT 仍然是模式匹配的一種方式,也許它只是把模式匹配變得更精確一些而已。
其他外部連結
作者:Xuna-You Lin