在深度學習領域,多層感知器(MLP, Multi-Layer Perceptron)向來是各類神經網路架構的基石,廣泛應用於資料擬合、函數逼近、科學計算等多種任務。然而,傳統的 MLP 節點中具有固定且以線性權重加權然後通過非線性激活函數的結構,固然強大但仍有其本質侷限。2024 年 ICLR 優秀論文《KAN: Kolmogorov-Arnold Networks》提出一種根基於經典數學理論——Kolmogorov-Arnold 表示定理的新穎神經網路架構 KAN,不僅挑戰傳統 MLP 的設計思路,更在準確性和可解釋性方面開創突破,為深度學習模型帶來嶄新視野。
研究背景與動機
Kolmogorov-Arnold 表示定理是二十世紀數學界的重要成果,該定理證明了任意多變量連續函數皆可表示為有限個一維連續函數的組合。這為多變量函數的逼近提供了理論基礎。傳統神經網路,尤其是 MLP,雖然具有函數逼近能力,但其結構依賴於網路層內部固定的激活函數和學習的線性權重,難以靈活反映基於單變量函數的更細緻結構。
本研究團隊受此啟發,提出「KAN」(Kolmogorov-Arnold Networks)架構,將傳統 MLP 中節點固定的非線性激活函數轉移到邊(權重)上,並且完全捨棄線性權重參數,改以可學習的「單變量函數」取代。此舉不僅理論意義深遠,亦實際展現出在準確度和模型可解釋性方面的巨大提升潛力。
核心方法與創新點
KAN 的最大創新是將參數權重視為一維函數,而非傳統意義上的標量值參數。具體作法為:用樣條(spline)函數對每個權重實現可微分且可訓練的單變量非線性函數。換句話說,每一條「邊」的權重不再是固定一個數字,而是動態的函數模組,該函數的輸入來自該邊的輸入信號,輸出則是經過變形後的加權結果。
此結構契合 Kolmogorov-Arnold 定理中函數分解的思路:利用多個一維函數組合來表達高維函數。透過學習這些邊上的單變量函數,KAN 不僅能學得複雜的輸入與輸出映射,也大幅降低了模型參數維度與冗餘,有效避免過度擬合。
此外,KAN 不包含任何線性參數,也不依賴節點層固定的激活函數,這種純函數形式的設計讓模型結構更為模組化且易於理解。研究團隊也設計了高效的優化與訓練方法,確保樣條函數參數可在梯度下降過程中穩定學習。
主要實驗結果
論文中,作者針對數據擬合與偏微分方程(PDE)求解等任務進行廣泛評估。實驗顯示,儘管 KAN 模型體積顯著小於相同準確度的 MLP,KAN 卻能達到相當甚至超越的擬合效果。
- 準確度提升:在多項基準數據集上,KAN 小型模型比起大容量 MLP 效果更優秀,顯示 KAN 在函數逼近上效率更高。
- 神經擴展定律更快:KAN 具備更優的神經網路擴展定律,意味著增大模型規模會帶來更快速且明顯的性能增長,與傳統 MLP 相比有明顯優勢。
- 可解釋性強:因邊權重是單變量函數,研究者能直觀地視覺化並理解模型如何在各條邊上轉換輸入,這大大提升了模型內部工作的透明度,對科學研究中的模型驗證與知識發現極為有益。
- 科學應用示範:在兩個數學及物理問題的案例中,KAN 不僅成功擬合問題,還協助科學家重新發現並解析其中的數學和物理定律,彰顯其作為人機協同工具的潛力。
對 AI 領域的深遠影響
KAN 論文的提出,不只是提出了一個新型神經網路結構,更試圖從根本重新塑造我們對深度學習模型的認識。以下幾點可見其深遠的影響力:
- 突破架構設計固有框架:傳統 MLP 透過固定激活函數搭配可學習線性權重,而 KAN 從數學定理出發,將可學習元素放置在「邊」上的函數分布,提示學界探索更多非典型的網路設計理念。
- 促進模型可解釋性研究:神經網路持續朝向可解釋性方向邁進,KAN 利用可視化的單變量函數大幅降低黑盒性,讓人類研究者能更好地追蹤與理解模型行為,對融合「科學發現」與「深度學習」具突破意義。
- 激勵交叉領域融合:藉由引入經典數學理論(Kolmogorov-Arnold 定理)與現代 AI 模型相結合,KAN 示範了跨領域理論融合新可能,未來有望推動更多數學、物理理論驅動的 AI 架構創新。
- 助力科學計算與工程問題:在數值模擬、PDE 求解等科學與工程問題中,KAN展現出強大性能,預示神經網路將成為更強大的科學計算工具,推動物理學與工程領域的計算革命。
綜上,《KAN: Kolmogorov-Arnold Networks》提供了顛覆傳統神經網路設計的嶄新視角。其基於單變量可學習函數替代線性權重的設計,理論上響應傳統函數逼近理論,同時實驗證明能達成更優性能與卓越可解釋性,為 AI 社群帶來具突破性的工具與靈感。對於未來的 AI 架構設計、神經網路理論與跨領域科學計算等方向,KAN 都奠定了重要的里程碑。
論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:
張貼留言