2026年6月28日 星期日

KAN: Kolmogorov-Arnold Networks 深度解析

在深度學習領域,多層感知器(MLP)可說是最基礎且廣泛應用的模型,幾乎成為多數神經網路架構中不可或缺的一環。這類模型的核心設計通常是「固定且線性的權重」搭配「非線性激活函數」組合,透過大量的參數學習複雜函數映射。然而,這種結構在一定程度上受到表現力及可解釋性的限制,尤其在處理高維函數擬合、偏微分方程(PDE)求解等任務時,往往需要龐大參數與訓練耗費。本篇由劉宏、王多多等人於 ICLR 2024 發表並獲得 Outstanding Paper 的論文《KAN: Kolmogorov-Arnold Networks》提出一種全新架構,改寫了傳統神經網路的基本設計理念,實現準確度與可解釋性的雙重突破。

研究背景與動機

Kolmogorov-Arnold 表示定理是數學領域一項極具啟發性的結果,該定理指出任何多變數連續函數都可以被分解成有限個單變數函數的組合。在機器學習語境中,這種結構暗示了一種潛在的模型設計思路:透過一組單變數函數的線性組合,我們或許能更有效率且有結構性地逼近複雜函數。

然而,傳統的 MLP 在設計上以固定形式的激活函數與線性權重為主,並未直接利用單變數映射的靈活性。這導致模型要達到同樣的表現需要規模更大、訓練更久,且模型複雜性的解釋性較低。針對這樣的挑戰,本論文創新地將 Kolmogorov-Arnold 定理中關鍵的「單變數函數」思想搬進神經網路架構,設計出一套全無線性權重、而是以學習型「邊激活函數」替代的網絡,這就是 KAN (Kolmogorov-Arnold Networks) 的核心動機。

核心方法與創新

KAN 的最大突破在於「拋棄線性權重、以可學習的單變數激活函數替代」。具體來說:

  • 邊激活函數的引入: KAN 模型將神經元間的邊視為可以學習的單變數函數(univariate functions),這些函數用樣條函數(spline)表示,透過參數化控制其形狀,成為模型全部的可訓練參數。傳統 MLP 則是由固定形狀但可調係數的權重所構成,兩者設計理念截然不同。
  • 全模型無線性權重: KAN 沒有權重乘積的線性部分,神經網路每一層的輸出由上一層各節點經過不同單變數函數後加總組合,形態更加靈活。
  • 可視化與互動性強: 由於每條邊代表一個可視化的單變數函數,使用者可直觀觀察到各「權重」函數的非線性形狀,這使得模型更具解釋力與可互動性,極大提升了神經網路的可用性與透明度。

透過這種設計,KAN 不單純是架構上的小改變,而是從基礎結構出發對深度神經網路的「參數本質」進行重塑,讓模型自動學習符合 Kolmogorov-Arnold 表示定理的函數分解形式,提升表達能力及泛化性能。

主要實驗結果

作者充分實證 KAN 在多個挑戰性問題中的優越表現,包括函數擬合任務及偏微分方程求解:

  • 精準度與模型規模: 在標準函數擬合問題裡,KAN 遠小於傳統 MLP 的模型規模卻能達到同等甚至更好的精度,說明其單變數函數結構強化了參數利用效率。
  • 偏微分方程求解: 在物理領域標準的 PDE 求解實驗中,KAN 不僅提高了數值解的精準度,還縮短了訓練收斂時間,展現出更快的神經縮放定律(neural scaling laws),確立其在科學計算中的實用價值。
  • 可解釋性案例: 作者以兩個具代表性的數學與物理範例展示 KAN 如何協助人類科學家重新發現已知定律。這種互動式的學習與解釋,顛覆了黑盒模型的傳統,為 AI 輔助科學研究帶來新啟示。

整體而言,實驗結果不只是健壯性與性能提升,更彰顯了模型設計深度融合領域數學理論的潛能。

對 AI 領域的深遠影響

KAN 在理論與實踐上均展現出令人振奮的突破,有望在以下幾個層面深刻影響 AI 研究與應用:

  1. 模型架構的革新: KAN 挑戰了「線性權重+固定激活」的標準神經網路架構,提出以可學習的單變數激活函數為核心的全新設計哲學,這可能引領未來神經網路向更可控、更易解釋的方向發展。
  2. 數學理論與 AI 的橋樑: 成功將經典的 Kolmogorov-Arnold 表示理論於深度學習架構中實現,表明數學中的抽象定理能直接促成模型創新,未來或可探索更多類似橋接機會,強化 AI 方案的理論基礎。
  3. 提升 AI 可解釋性與人機協同: KAN 自然的可視化與解釋途徑使其更適合作為科學家與工程師的智能助理,推動 AI 系統不再是黑盒,而是成為可共同理解與改進的合作夥伴。
  4. 推動高效科學計算: 具備更快縮放規律的 KAN,有潛力在科學、工程模擬、物理建模等領域替代傳統 MLP,帶來計算成本和精度的雙贏,促進複雜系統建模與求解效率。

總結來說,KAN 開創了以「可學習的邊激活單變數函數」代替線性權重的新典範,它在模型效能與解釋性上提供了一套完整且可操作的解決方案,對深度學習架構設計提出全新的視角。未來,KAN 不僅具備成為 MLP 及其他深度模型強力替代品的潛力,更象徵著跨領域理論與實踐融合的成功範例,值得 AI 研究者及工程師密切關注和深入探索。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:

張貼留言