隨著深度學習逐步發展為人工智慧核心技術,傳統的多層感知器(Multi-Layer Perceptrons, MLPs)作為基本結構之一,在許多任務中表現傑出。然而,MLPs 基本架構中節點「神經元」上固定使用的激活函數,與其邊權重通常是線性標量的設計,存在結構性限制。近期劃時代的論文《KAN: Kolmogorov-Arnold Networks》由劉博士等團隊,發表於 ICLR 2024 中,提出了一個革命性的神經網路設計理念:Kolmogorov-Arnold Networks(簡稱 KANs),徹底改造了激活函數與權重參數的定義,顛覆傳統 MLP 界限,獲得了 Outstanding Paper 的殊榮。
研究背景與動機
Kolmogorov-Arnold 表示定理(Kolmogorov-Arnold representation theorem)在數學函數理論中扮演重要角色,該定理指出任意多變數連續函數,可拆解成多個一維連續函數的組合。受此啟發,傳統 MLP 由多層節點線性加權結合並通過非線性激活函數形成複雜模型,但在表達自由度上受限於固定激活形式,且權重是純標量。此設計在某些高階模型需求或解釋性任務上遇瓶頸。
本論文動機在於嘗試全面解放神經網路中激活函數與權重的結構性限制,以提升模型的精度、可解釋性與擴展性。研究者提出一個新方案:將神經網路中所有權重改由「一維的可學習函數」來表示,取代傳統線性數值權重,並直接置換節點激活函數策略,期望藉此開啟更豐富的函數表示空間和互動方式。
核心方法與創新
KANs 的最大創新點在於「無標量線性權重」的設計。具體做法是,每條邊上的權重不再是單一數值,而是一個可學習、可微分的一維函數,且利用平滑樣條(spline)來參數化此權重函數。平滑樣條能夠靈活調整函數形狀,包含非線性及局部特徵的豐富表現,更能捕捉數據中微妙多樣的關係。
從結構上來看,KAN 把傳統 MLP 的「節點激活函數」概念部分轉移到「邊緣函數」上,整體神經網路不再以「神經元激活」為中心,而是由加權函數串連。此設計直觀呼應 Kolmogorov-Arnold theorem 中「函數拆解為單變數函數加權和」的核心思想,因此得名 Kolmogorov-Arnold Networks。
技術細節方面,研究團隊以高階樣條函數搭配梯度下降優化整體網路參數。透過這種高度可塑的權重函數,KANs 在理論上擁有更強的近似能力與泛化潛力,同時保持端對端可訓練。相較於一般廣泛使用的 MLP,KANs 不需預設激活函數形式(例如 ReLU、Sigmoid),讓模型自主探索最適激活動態。
主要實驗結果
本論文展示多項實驗標竿,證明 KANs 在多種場景均優於傳統 MLPs:
- 準確度優勢:在數據擬合任務上,體積較小的 KAN 模型能匹配甚至超越大規模 MLP 的表現。這表示 KAN 在參數效率上有明顯提升,有助於減少計算資源消耗。
- 神經擴展規律(Neural Scaling Laws):理論與經驗均顯示,KANs 的性能改善隨網絡規模成長的速度快於傳統 MLP,預示在更大數據與模型規模下,KAN 可能帶來更顯著優化效果。
- 偏微分方程(PDE)求解:在物理建模領域,KAN 可用來有效逼近複雜的 PDE 解算器,展現強大的函數近似能力,且在較小模型尺寸下達成準確解,顯示其對數學與物理問題建模的契合度。
- 可解釋性與人機互動:KAN 的權重函數是明確的單變數函數,可視化直觀且易於理解。研究者示範 KAN 協助科學家以新視角「發現」數學與物理定律,將深度學習與專家智慧有效串連。
對 AI 領域的深遠影響
KANs 不只是形式上的架構革新,其背後開啟了「神經網路結構自由化」的新思維。傳統神經網路大幅倚賴固定激活函數和線性權重,KAN 就像是打開封印,讓所有邊緣權重成為更具表現力的函數,自動調整非線性結構,讓模型更靈活、更具適應力。
此舉對於下列方向具有深遠意義:
- 模型泛化與效率:KAN 能用更少參數達成更佳準確度,降低了對龐大模型的依賴,適合資源有限邊緣運算或裝置部署。
- 模型可解釋性提升:由於權重函數的可視化和可理解性,KAN 有潛力成為科學推理與符號發現的輔助工具,推動 AI 在基礎科學研究中的應用。
- 理論基礎與架構設計:KAN 向數學定理致敬,借力定理數學上的深刻結果,展示如何將嚴謹數學理論導入神經網路架構設計,促進理論與實踐融合。
- 激活函數的重新想像:KAN 挑戰了長期以來激活函數固定不變的傳統,未來有望激發更多創新結構與學習機制。
總結而言,KAN: Kolmogorov-Arnold Networks 論文提出了一套嶄新神經網路設計框架,徹底改變了激活函數和權重的角色定位,以可學習的一維函數取代線性數值權重,憑藉其理論根基與實驗效能,展現出高精度、強解釋力與良好擴展性。對於深度學習研究者與工程師來說,KAN 不僅提供了一個有效替代傳統 MLP 的方向,更打開未來深度學習模型設計的全新視野,值得投入更多探究與應用開發。
論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:
張貼留言