論文導讀:Nested Learning (巢狀學習) —— 深度學習架構的幻象
來源論文:Nested Learning: The Illusion of Deep Learning Architecture [cite: 1, 2]
作者:Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni (Google Research) [cite: 2, 3]
在過去的幾十年中,機器學習的研究核心一直集中在開發更強大的神經架構和優化算法 [cite: 5]。然而,儘管大型語言模型(LLMs)取得了巨大進展,它們在持續學習(Continual Learning)和自我改進方面仍面臨根本性的挑戰 [cite: 6]。目前的模型大多是靜態的,無法在部署後有效地獲取新能力 [cite: 23, 59]。
這篇由 Google Research 提出的論文引入了一個新的學習範式——巢狀學習(Nested Learning, NL),試圖打破我們對「架構」與「優化器」的傳統認知 [cite: 7]。
1. 什麼是巢狀學習 (Nested Learning)?
NL 將機器學習模型視為一組「巢狀的、多層次的優化問題」系統 [cite: 7]。在這個系統中,每個組件(無論是架構中的層還是優化算法)都有自己的「上下文流(context flow)」和更新頻率 [cite: 7]。
這個概念受到神經科學的強烈啟發。人類大腦並不依賴單一的中央時鐘來同步所有神經元,而是利用不同頻率的腦波(如 Gamma 波、Beta 波、Theta 波)在多個時間尺度上處理資訊 [cite: 38, 39, 40]。NL 認為,模型中的參數也應該根據不同的頻率進行更新 [cite: 40]。
「我們不能用創造問題時的思維來解決問題。」—— 愛因斯坦 [cite: 15, 16]
2. 重構核心概念:優化器即記憶
這篇論文最引人入勝的觀點之一,是對現有工具的重新定義:
- 優化器是聯想記憶: 論文證明了常見的梯度優化器(如 Adam, SGD with Momentum)實際上是「聯想記憶模組(Associative Memory Modules)」,它們的目標是透過梯度下降來壓縮梯度的資訊 [cite: 10]。例如,理論上 Adam 是針對元素級 $L_2$ 回歸目標的最佳聯想記憶 [cite: 137, 520]。
- 反向傳播是自我指涉: 訓練神經網絡的反向傳播過程被視為一種自我指涉(Self-Referential)的過程,模型透過生成自己的誤差訊號來控制學習 [cite: 490]。
- 預訓練即上下文學習: 「預訓練」本身就是一種上下文學習(In-Context Learning),只不過它的上下文非常巨大(整個預訓練數據集),且位於最低頻率的更新層級 [cite: 8, 134]。
3. 解決方案:HOPE 架構
基於上述理論,作者提出了名為 HOPE 的持續學習模組 [cite: 14],結合了兩個關鍵創新:
(1) 自我修正的 Titans (Self-Modifying Titans)
這是一個能夠學習「如何修改自己」的序列模型 [cite: 12]。與傳統靜態模型不同,它能夠生成自己的學習率和權重衰減參數,從而根據當前的上下文動態調整學習過程 [cite: 12, 1029]。
(2) 連續記憶系統 (Continuum Memory System, CMS)
CMS 重新定義了傳統的「長短期記憶」觀點 [cite: 13, 152]。它將架構分解為一系列具有不同更新頻率的 MLP 區塊(從高頻到低頻)[cite: 857]。這種設計創造了一個記憶迴路,使得被遺忘的知識可以在不同層級間循環,從而有效抵抗災難性遺忘 [cite: 154, 890]。
4. 實驗成果
HOPE 架構在多項測試中展現了超越現有基線的性能:
- 持續學習: 在 CLINC、Banking 和 DBpedia 等類別增量學習任務中,HOPE 的表現優於 Elastic Weight Consolidation (EWC) 和其他持續學習方法 [cite: 1208, 1119]。
- 長文本理解: 在「大海撈針(Needle-In-A-Haystack)」測試中,HOPE 在單針、多針及多重查詢設置下,均優於 Transformer、RWKV-7 和 Titans 等模型 [cite: 1290, 1224]。
- 新語言學習: 在持續翻譯新語言的任務中,HOPE 展示了透過多層記憶設計來適應新任務的能力,顯著減少了災難性遺忘 [cite: 156, 1279]。
- 優化器效率: 論文還提出了基於 NL 理論的 M3 優化器 (Multi-scale Momentum Muon),在 ImageNet 和語言模型訓練中展現了比 AdamW 更佳的收斂效果 [cite: 155, 1406]。
總結
Nested Learning 提出了一個激進的觀點:我們不需要堆疊更多靜態的層,而是需要引入「層級(Levels)」作為新的設計維度 [cite: 9]。未來的模型不應區分「訓練」與「測試」階段,而應是一個在不同時間尺度上持續壓縮數據、自我修正的動態系統 [cite: 148, 828]。

沒有留言:
張貼留言