在深度學習日益蓬勃發展的今日,傳統的多層感知機(Multi-Layer Perceptrons,MLPs)依然是多數模型的核心組件。MLP 以固定的激活函數與線性權重組合為基礎,成功解決了無數分類、回歸及函式近似問題,然而其架構設計中仍存在固有的限制。例如,固定的節點激活函數缺乏彈性,線性權重雖便於優化,卻可能無法充分表現更複雜的非線性映射。基於此背景,來自 MIT、哈佛及麻省理工等頂尖機構合作的研究團隊,提出了一種全新的神經網路架構——Kolmogorov-Arnold Networks(簡稱 KAN),並於 ICLR 2024 獲得傑出論文獎。
一、研究背景與動機
KAN 的靈感來源於數學中的 Kolmogorov-Arnold 表示定理,該定理指出任何多變數連續函數都能表示成一組一維函數的組合。傳統 MLP 將神經元節點視為計算單元,藉由節點間帶有固定激活函數的線性權重實現非線性映射。但此架構只改變節點層級的激活方式,權重本身始終是純量參數。研究者們反思:假如將激活函數的自由度從節點轉移至「邊」(即權重)上,並讓權重本身成為可學的一維函數(而非單純的線性係數),是否能突破現有 MLP 在性能與解釋性的限制?
動機明確。首先,將激活函數置於邊上可提供比點激活更靈活的非線性變換,理論上能更有效地捕捉複雜函數的內涵結構。其次,數學上的理論支持(Kolmogorov-Arnold定理)也賦予此架構極高的理論可行性與泛化潛力。最後,深度學習社群亟需更加透明且易於解讀的模型,而 KAN 所提供的可視化與交互特性將帶來更友善的人機合作體驗。
二、核心方法與創新點
KAN 的核心創新在於它完全摒棄了傳統的線性權重,將每一條邊上的權重參數轉變成可學習的一維激活函數。這些一維函數透過樣條(spline)進行參數化,透過優化過程不斷調整其形狀,使其在每條連結上具備高度的非線性轉換能力。
- 權重作為函數: 傳統 MLP 的每條連結權重是一個純量係數,而 KAN 的權重是一個函數形式,一個單變數函數,用來映射輸入特徵從一維到另一維。此設計大幅提升了模型表達能力。
- 激活函數位置轉移: 結合 Kolmogorov-Arnold 表示定理,將非線性激活由神經元節點轉移至權重邊提升了模型的靈活度與擬合能力。
- 樣條函數參數化: 利用樣條曲線為權重函數建模,使其具有良好的光滑性及可微性,且參數維度相較於無限制函數大幅降低,方便優化和正則化。
- 去除線性權重: KAN 無線性權重參數,全部參數皆為一維函數的控制點,創新結構化參數形式與神經網絡訓練優化方法相結合。
整體來說,KAN 提出一種重新定義神經網路基本運作元素的視角,從「點激活+線性權重」的組合,跳脫到「節點函數+邊函數」的結構,讓網絡架構本身能自適應更高階的函數空間。
三、主要實驗結果
作者在多個經典數據擬合及偏微分方程(PDE)求解任務中驗證了 KAN 的效能:
- 精度提升: 小型的 KAN 在回歸曲線擬合任務中展現出比大型 MLP 更優異的準確率,顯示其較高效的函數表示能力。
- 神經擴展定律: 理論與經驗皆證明,KAN 的神經網絡規模擴展時,模型性能提升速度快於 MLP,顯示其具更高的參數利用效率。
- PDE 求解: 在數學物理問題中,KAN 作為函數逼近器展現優秀表現,效率高於傳統神經網絡結構,體現其在模擬物理系統與科學計算上的潛能。
- 模型透明可解釋性: KAN 中每條邊的函數具有可視化解釋性,用戶可透過函數形態直接理解各連結的非線性關係,促進模型理解與科學合作。
- 人機協同示例: 透過實驗,研究團隊展示了 KAN 如何幫助科學家自動探索數學與物理定律,進一步驗證該架構不僅是黑盒模型,而是科學研究的有力助手。
四、對 AI 領域的深遠影響
KAN 的提出代表了神經網絡設計思維的一大突破,為深度學習領域帶來以下重要啟示:
- 模型結構的新範式: 傳統 MLP 以節點為非線性激活中心的設計被重新定義,權重作為函數的概念倒逼人工神經網絡研究朝向更靈活、高階函數空間探索,打開了架構創新的新方向。
- 理論與實踐結合: 研究運用嚴謹的數學表述(Kolmogorov-Arnold定理)成就架構設計,兼具深厚理論根基與實踐效驗,充分體現了數學原理在 AI 模型中的巨大利用潛能。
- 提升模型解釋性與透明度: KAN 的邊作為可視化函數,使得黑盒神經網絡在部分應用場景下能更親近人類直覺與科學詮釋,這有助於推動可信 AI 及可解釋 AI 的發展。
- 促進跨領域科學合作: KAN 被證明能作為一種輔助工具,協助科學家發掘並驗證理論規律,這有望成為 AI 助力基礎科學研究的新範例,融合人工智慧與科學探索。
- 優化神經網絡擴展效率: 對於需求較高精度且推理與訓練資源受限的應用(如科學計算、工程模擬),KAN 提供了更具效率的模型規模擴張路徑,未來有望廣泛影響節能型 AI 模型設計。
綜上所述,Kolmogorov-Arnold Networks 不僅從數學理論中汲取靈感,創新地將權重函數化,突破了傳統神經網絡在結構與表達空間上的限制。KAN 不僅在多項任務中展示了更優的性能與可解釋性,更為 AI 與科學研究的深度融合奠定了堅實基礎,標誌著未來神經網絡演進方向的重要里程碑。
對於研究人員與工程師而言,KAN 同時帶來新的挑戰與機會——如何在更複雜的函數空間中有效優化,如何整合多樣化的可學習函數結構,都是未來值得深耕的課題。期待更多後續工作能探究 KAN 在更多領域的應用潛力,並推動下一代神經網路架構的革新。
論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:
張貼留言