在現代深度學習領域中,多層感知器(Multi-Layer Perceptrons,MLPs)作為基礎的神經網路結構,因其簡潔且易於優化的特性,廣泛應用於各類問題中。然而,MLPs 的設計通常假設固定且不可學習的激活函數(如 ReLU、Sigmoid 等),且其權重是線性的純量。這種架構雖然行之有年,但在表達能力、模型擴展性及解釋性方面仍存在限制。由此,2024 年 ICLR 上由 Liu 等人發表的《KAN: Kolmogorov-Arnold Networks》榮獲傑出論文獎,其核心創新是提出一種全新結構的神經網路模型——Kolmogorov-Arnold Networks(KAN),有望成為 MLP 的有力替代方案,做到同時提升模型性能與可解釋性。
研究背景與動機
本論文的靈感來自數學界知名的 Kolmogorov-Arnold 表示定理,該定理指出任意多變數連續函數可分解成若干 univariate 函數的組合。這一理論框架為神經網路的架構設計提供了新視角。傳統 MLP 網路的特點是節點上的激活函數固定,而權重是標量乘積;而根據 Kolmogorov-Arnold 定理,理想的多變數函數表示應能將權重參數本身「函數化」,即用可學習的 univariate 函數替代純量權重。於是,本研究提出 KAN 利用 spline(樣條函數)來參數化這些函數化的權重,意圖透過更靈活的 “可變激活函數” 取代傳統的固定非線性,帶來更強大的函數近似能力。
核心方法與創新
KAN 在結構上徹底顛覆 MLP,「權重」不再是單一線性係數,而是被設計為帶有可參數化單變數函數特性的曲線(使用樣條函數進行參數化)。具體來說,整個神經網路不再僅由線性映射與固定非線性組成,而是由多個 learnable 函數(每條邊一個 univariate spline)組合而成。其最大亮點在於:
- 無線性權重設計:每一條神經連結的權重被一個可微、可調節的單變數函數取代,這在以往神經網路設計中尚屬首創。
- 激活函數可學習:透過函數形式權重,激活作用相較於傳統 neuron-centric 的不可更改函數,更靈活且具解釋意義。
- 透過 Kolmogorov-Arnold 理論正當化設計:根據該定理,能保證用這種函數組成可以理論上精確逼近任意連續多維函數,有較強的數學基礎支撐。
- 高度可視化與互動性:由於權重本身為函數形式,研究者可以直觀地透過圖形化方式觀察與解釋學習到的函數形態,促進人機協作。
主要實驗結果
實驗部分,作者涵蓋多種重要場景,包括數據擬合(function approximation)以及偏微分方程(PDE)求解,並與對標的 MLP 進行多組嚴格對比。重要發現如下:
- 較小模型達成更優性能:比起擁有龐大參數的 MLP,KAN 在訓練精度與泛化表現上均顯著優越。即便使用較少的參數,KAN 也能達到甚至超越 MLP 的效能。
- 神經擴展定律(Neural Scaling Laws)更為迅速:理論分析與實驗結果均顯示,KAN 隨網絡規模增大,性能成長速度快於傳統 MLP,顯示未來大規模應用潛力。
- 實務場景中展現科學價值:透過兩個數學和物理領域案例,KAN 不僅能精準擬合數據,還能協助科學家發現與詮釋潛在的數學及物理規律,促進科研的自動化與智能化。
- 可解釋性提升明顯:傳統神經網路多被視為「黑盒」,但 KAN 中學習到的權重函數可以被人類用直覺理解與檢視,提升模型透明度與信任度。
對 AI 領域的深遠影響
KAN 作為 MLP 的一種結構性改進,挑戰了我們對深度神經網路權重與激活函數組成的傳統理解,提供了一條從數學理論到模型設計的全新范式。該研究具有多方面的意義:
- 重塑神經網路基礎構件認知:KAN 將權重視為函數,為深度學習中參數設計開啟了新一輪思考,未來可望激發更多具函數化思想的模型架構。
- 促進更高效且解釋的 AI 系統:由於函數性權重可視化與交互特性,KAN 在應用到科學計算、工程模擬甚至醫療診斷中,有較強的透明度與可信度,有助提升 AI 的普遍接受度與安全性。
- 加速科學研究自動化:KAN 可視為一個具備發現數學與物理規律能力的科研助手,未來將推動 AI 在自然科學中成為更積極的合作伙伴。
- 拓展神經網路理論與實踐的橋樑:藉由 Kolmogorov-Arnold 理論的嚴密數學基礎,KAN 填補了神經網路模型設計與經典數學理論間的空白,帶動跨領域研究的合作。
總結而言,KAN 代表了神經網路架構演化的一次重要嘗試,通過從權重參數的本質開始革新,在理論與應用層面均展現出極大潛力。未來,隨著該模型及其變體的深入研究與優化,預計能為深度學習模型帶來革新性的效率提升與解釋機制,成為繼 MLP 之後的新一代深度學習基石。
推薦具備基礎神經網路知識的讀者深入閱讀此論文,了解其細節設計與實驗架構,不僅能汲取前沿模型創新的思路,更有助於將 Kolmogorov-Arnold 理論應用於更廣泛的 AI 模型研發。
論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756
沒有留言:
張貼留言