行有餘力則以學文: 論文導讀：Nested Learning

2025年12月13日星期六

論文導讀：Nested Learning - 深度學習架構的幻象

論文導讀：Nested Learning (巢狀學習) —— 深度學習架構的幻象

來源論文：Nested Learning: The Illusion of Deep Learning Architecture [cite: 1, 2]
作者：Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni (Google Research) [cite: 2, 3]

在過去的幾十年中，機器學習的研究核心一直集中在開發更強大的神經架構和優化算法 [cite: 5]。然而，儘管大型語言模型（LLMs）取得了巨大進展，它們在持續學習（Continual Learning）和自我改進方面仍面臨根本性的挑戰 [cite: 6]。目前的模型大多是靜態的，無法在部署後有效地獲取新能力 [cite: 23, 59]。

這篇由 Google Research 提出的論文引入了一個新的學習範式——巢狀學習（Nested Learning, NL），試圖打破我們對「架構」與「優化器」的傳統認知 [cite: 7]。

1. 什麼是巢狀學習 (Nested Learning)？

NL 將機器學習模型視為一組「巢狀的、多層次的優化問題」系統 [cite: 7]。在這個系統中，每個組件（無論是架構中的層還是優化算法）都有自己的「上下文流（context flow）」和更新頻率 [cite: 7]。

這個概念受到神經科學的強烈啟發。人類大腦並不依賴單一的中央時鐘來同步所有神經元，而是利用不同頻率的腦波（如 Gamma 波、Beta 波、Theta 波）在多個時間尺度上處理資訊 [cite: 38, 39, 40]。NL 認為，模型中的參數也應該根據不同的頻率進行更新 [cite: 40]。

「我們不能用創造問題時的思維來解決問題。」—— 愛因斯坦 [cite: 15, 16]

2. 重構核心概念：優化器即記憶

這篇論文最引人入勝的觀點之一，是對現有工具的重新定義：

優化器是聯想記憶： 論文證明了常見的梯度優化器（如 Adam, SGD with Momentum）實際上是「聯想記憶模組（Associative Memory Modules）」，它們的目標是透過梯度下降來壓縮梯度的資訊 [cite: 10]。例如，理論上 Adam 是針對元素級 $L_2$ 回歸目標的最佳聯想記憶 [cite: 137, 520]。
反向傳播是自我指涉： 訓練神經網絡的反向傳播過程被視為一種自我指涉（Self-Referential）的過程，模型透過生成自己的誤差訊號來控制學習 [cite: 490]。
預訓練即上下文學習： 「預訓練」本身就是一種上下文學習（In-Context Learning），只不過它的上下文非常巨大（整個預訓練數據集），且位於最低頻率的更新層級 [cite: 8, 134]。

3. 解決方案：HOPE 架構

基於上述理論，作者提出了名為 HOPE 的持續學習模組 [cite: 14]，結合了兩個關鍵創新：

(1) 自我修正的 Titans (Self-Modifying Titans)

這是一個能夠學習「如何修改自己」的序列模型 [cite: 12]。與傳統靜態模型不同，它能夠生成自己的學習率和權重衰減參數，從而根據當前的上下文動態調整學習過程 [cite: 12, 1029]。

(2) 連續記憶系統 (Continuum Memory System, CMS)

CMS 重新定義了傳統的「長短期記憶」觀點 [cite: 13, 152]。它將架構分解為一系列具有不同更新頻率的 MLP 區塊（從高頻到低頻）[cite: 857]。這種設計創造了一個記憶迴路，使得被遺忘的知識可以在不同層級間循環，從而有效抵抗災難性遺忘 [cite: 154, 890]。

4. 實驗成果

HOPE 架構在多項測試中展現了超越現有基線的性能：

持續學習： 在 CLINC、Banking 和 DBpedia 等類別增量學習任務中，HOPE 的表現優於 Elastic Weight Consolidation (EWC) 和其他持續學習方法 [cite: 1208, 1119]。
長文本理解： 在「大海撈針（Needle-In-A-Haystack）」測試中，HOPE 在單針、多針及多重查詢設置下，均優於 Transformer、RWKV-7 和 Titans 等模型 [cite: 1290, 1224]。
新語言學習： 在持續翻譯新語言的任務中，HOPE 展示了透過多層記憶設計來適應新任務的能力，顯著減少了災難性遺忘 [cite: 156, 1279]。
優化器效率： 論文還提出了基於 NL 理論的 M3 優化器 (Multi-scale Momentum Muon)，在 ImageNet 和語言模型訓練中展現了比 AdamW 更佳的收斂效果 [cite: 155, 1406]。

總結

Nested Learning 提出了一個激進的觀點：我們不需要堆疊更多靜態的層，而是需要引入「層級（Levels）」作為新的設計維度 [cite: 9]。未來的模型不應區分「訓練」與「測試」階段，而應是一個在不同時間尺度上持續壓縮數據、自我修正的動態系統 [cite: 148, 828]。