常用資訊速查

2026年5月31日 星期日

KAN: Kolmogorov-Arnold Networks 深度解析

在深度學習領域中,多層感知器(Multi-Layer Perceptrons,MLPs)長期以來都是基礎且重要的架構,廣泛應用於各種監督式學習任務。然而,MLPs 的結構設計中,神經元的啟動函數通常是固定而不可學習的,且網路中的連結權重採用線性加權,這使得模型參數雖然具彈性,卻也限制了參數的表達形式。2024 年 ICLR 的傑出論文〈KAN: Kolmogorov-Arnold Networks〉由劉仲翰等人提出了一種根植於經典數學定理——Kolmogorov-Arnold 表示定理的新穎神經網路架構,名為 Kolmogorov-Arnold Networks(KAN),突破了傳統 MLP 的框架,展現出卓越的性能與良好的可解釋性,並為深度學習網路設計開創了新的方向。

研究背景與動機

Kolmogorov-Arnold 表示定理是數學中一個深具啟發性的結果,指出任何多變量連續函數都能被表示成若干個一維函數與加法的組合。這一點為函數逼近問題提供了理論基石。傳統 MLP 本質上透過多層組合達成非線性映射,而其中的權重係數均是線性參數,神經元啟動函數則事先固定(如 ReLU、sigmoid)。此設計雖然有效,但也限制了網路在函數空間內的靈活度。

鑒於此,劉等人提出把參數化重點從節點的「激活函數」轉向邊的「權重函數」,並特別設計權重成為可學習的一維函數。這代表 KAN 完全捨棄了傳統意義下的線性權重,改以一維非線性函數作為連結表達方式,與 Kolmogorov-Arnold 定理中對函數結構的理解互為呼應。這不單強化了模型本身的非線性擬合能力,也使模型能更有效地封裝與呈現函數結構,提升模型的解釋力與訓練效率。

核心方法與技術創新

KAN 的關鍵創新在於將所有網路的邊權視為可學習的一維函數,而非單一固定係數。這些函數被參數化為使用樣條(splines)函數,因樣條具有良好平滑性與靈活性,可近似各種複雜形狀的曲線。透過此設計:

  • 無線性權重: 以前線性權重乘以節點輸出訊號,如今換成由一維函數進行轉換,這大幅提升了模型對於非線性變換的表達能力。
  • 激活函數改為可學習形狀: 傳統 MLP 的激活函數是不變的,KAN 則讓每條邊上的激活曲線可隨訓練動態調整,彈性遠高於典型設計。
  • 激活與權重一體化: 權重函數同時承擔了階段轉換與參數調整的角色,使網路結構更為緊湊且具非線性適應性。

這種設計理念直接呼應 Kolmogorov-Arnold 表示定理中分解多維函數為一維函數和線性加權的結構,KAN 實際上用一套可學習的一維函數替代了傳統的線性權重,讓整個網路的表達能力朝著定理理想的方向靠攏。此外,KAN 的參數維度管理得當,避免過度膨脹,保持模型精簡。

主要實驗結果

在論文中,作者針對多個函數擬合任務與物理偏微分方程(PDE)求解實驗,將 KAN 與傳統 MLP 及其他基線方法進行對比。實驗結果十分振奮人心,包含:

  • 精度提升: KAN 能夠用較小規模的模型達到甚至超越大型 MLP 的精準度,展現出優越的數據擬合能力與泛化表現。
  • 訓練效率更高: KAN 擁有更快的神經縮放律 (neural scaling laws),即隨著參數增加,性能提升速度優於傳統 MLP。
  • 可視化與可解釋性: 由於權重為明確的函數形態,研究者可以直觀地觀察並分析權重曲線,輔助理解網路學到的隱含規律,甚至幫助科學家重新發現數學和物理定律。
  • 跨領域案例: 論文中展示了兩個重要案例,分別在數學函數擬合和物理系統建模方面,KAN 不只改善預測準確度,更能作為科研工作者的輔助工具,促成理論知識的推進。

這些結果充分證明了 KAN 以其獨特的結構設計,既提高了主流深度學習模型的效能,也擴展了神經網路在科學問題中的應用維度。

對 AI 領域的深遠影響

KAN 的出現,從理論與實務兩方面帶來深刻的啟示。首先,在網路架構設計上,KAN 的創新顛覆了長久以來「節點激活函數固定、權重為線性係數」的慣例,打開了將參數設計為函數、以函數取代純係數的先河,這不僅是一種架構的翻新,更是泛函學習思維的落實與展示。

其次,KAN 將數學基礎理論與深度學習技術做出極佳結合,體現了 AI 理論與應用同步演進的典範。這種理論驅動的架構創新,有助於推動 AI 研究回歸更具深度與嚴謹性的基石,令人期待後續更多從數學定理汲取靈感的新型網路設計。

再者,KAN 展示了 AI 模型可解釋性的重要性,透過將模型權重化為具備直觀意義的函數形式,使得模型不僅是黑盒函數逼近器,更能成為科學研究的共創伙伴,這對於科學 AI、符號 AI 等領域意義重大。

最後,由於神經縮放律的提升,KAN 為模型提升效率與精度兼備提供新的思路,有望對大規模訓練與部署帶來成本下降與性能提升的實際效益,對業界應用具有潛在轉型價值。

總結

總體而言,KAN: Kolmogorov-Arnold Networks 是一項兼具理論優雅與實務效能的前沿研究成果。它不僅基於經典數學理論提出了全新神經網路架構,也在多種任務上展現出色表現及極具啟發性的可解釋性,讓我們看到深度學習模型未來可能的新方向。隨著 AI 權重大幅成為功能可變的函數,KAN 有望成為繼 MLP 之後的另一個深具影響力的基礎架構,開啟神經網絡設計的下一章。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:

張貼留言