近年來,深度學習模型中以多層感知器(MLP, Multi-Layer Perceptrons)為核心組件的架構,已在各種任務中展現卓越表現。傳統 MLP 中,神經元的激活函數事先固定,且線性權重是網路的主要參數。這種設計雖然經過長年優化,但其結構固定,造成模型在效率、可解釋性及擴展性方面受到限制。ICLR 2024 中由劉博文等人提出的 KAN: Kolmogorov-Arnold Networks 論文,以數學基石──Kolmogorov-Arnold 表示定理為靈感,創新地打破了傳統 MLP 架構的框架,提出了一種全新的深度學習模型結構,並獲得傑出論文獎的肯定。
研究背景與動機
Kolmogorov-Arnold 表示定理是函數表示理論中的經典成果,該定理闡述了任意連續多變數函數能分解為一定數量的單變數函數組合。這理論暗示,複雜的多維函數可被拆解成多個更簡單且結構明確的單變數函數。傳統 MLP 雖然在實踐中證明強大,但其激活函數固定且權重為純量,缺乏靈活性和解釋力。研究團隊基於「可學習的激活函數」與「函數拆解」的靈感,提出以 univariate spline 函數替代 MLP 網路中的線性權重,藉由學習每條邊上的激活函數,使模型自帶高度非線性與函數結構化的特性。
核心方法與創新
本論文最核心的創新在於徹底改變了神經網路參數的定義方式。KAN 網路完全拋棄了傳統神經元上的線性加權係數,改為每條連結邊(weight)由一個可學習的單變數函數來表示,該函數以樣條(spline)形式參數化。這有以下三大關鍵差異:
- 無線性權重:每個連結的參數不再是單一實數,而是整個函數,能根據輸入值調整輸出,極大提升表示彈性。
- 激活函數在權重而非節點上:傳統 MLP 的激活函數固定於節點,KAN 則將「激活」角色嫁接於邊上,讓權重成為動態的轉換器。
- 函數可視化與解釋:由於權重是明確的單變數函數,研究者可直觀觀察和分析每條連結的行為,增強可解釋性。
這樣的架構設計不僅從理論上契合 Kolmogorov-Arnold 定理,也為神經網路提供了新的參數空間探索方向。實際上,透過樣條函數可靈活調控函數形狀,使模型在近似複雜函數時能展現更高的效率與精度。
主要實驗結果
論文在多個關鍵任務中驗證了 KAN 的優勢:
- 函數擬合:在標準多維函數擬合任務上,較小尺寸的 KAN 結構能匹配甚至超越大規模 MLP 的表現,展示其高度的參數效率和泛化能力。
- 偏微分方程(PDE)求解:對於物理和工程領域常面臨的 PDE 問題,KAN 不僅具備比 MLP 更快的收斂速度,預測誤差也明顯降低,突顯其在數值科學中的應用潛力。
- 神經規模定律(Neural Scaling Laws):理論與實驗一致指出,KAN 的表現隨網路規模提升的增益速度快於 MLP,代表其效率提升不僅限於小型網路,亦適用於大規模模型。
- 可解釋性和互動性:利用 KAN 的函數形式,使用者能直接觀察每條邊對應的激活函數曲線,從分析參數變化到人機互動探索,KAN 為人工智能與領域專家之間架起一座新的橋樑。
- 科學發現案例:論文中特別展示了 KAN 在數學與物理領域作為科研輔助工具的潛力,協助科學家從資料中自動(重新)發現經典定律與規則,突破傳統黑盒模型難以解釋的困境。
對 AI 領域的深遠影響
KAN 的提出,不僅是一個架構上的技術創新,更是對深度學習參數化方式及可學習函數複雜度的一種全新思考。它打破了「以參數為純量」的傳統框架,走向「以參數為函數」的廣義神經網路思維,這種思維可能引領下一波深度學習的模型架構革新。
首先,KAN 透過可學習的 spline 變換放大了網路的非線性表達能力,提升資料利用效率及泛化性能,對追求模型輕量化、低資源場景(如嵌入式系統)具高度吸引力。其次,基於函數形式的參數化有助於解決深度模型的解釋性問題,促使未來 AI 與科學研究、工程應用結合更緊密,特別是在需要模型透明、可交互的高階應用場景。
此外,從理論角度,KAN 有助於拓展神經網路理論的基礎框架,特別是在神經網路如何更有效近似複雜函數的研究上,具有開拓性的啟示意義。這種基於 Kolmogorov-Arnold 理論建立的參數化思想,也可能啟發其他架構創新,甚至跨足數學、物理等多學科領域融合。
總結來說,KAN 代表了深度學習架構和參數化模型定義的重要里程碑。它不僅挑戰了傳統 MLP 設計,提出全新且更具彈性的學習範式,也為改善模型效能、推進可解釋 AI,以及促進 AI 與科學研究的融合,提供了嶄新的解決方案與視野。未來若能結合更高效的樣條優化技術、剪枝策略,以及拓展至大型神經網路架構中,KAN 有望成為深度學習社群中不可忽視的主流候選之一。
論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756
