2026年4月24日 星期五

KAN: Kolmogorov-Arnold Networks — 重塑神經網路結構的創新範式

隨著深度學習的廣泛普及,傳統多層感知機(MLP)作為最基礎的神經網路架構之一,仍然是各種複雜模型的核心組件。然而,MLP長期以來依賴固定形式的激活函數及線性權重參數,這在一定程度上限制了模型靈活性與可解釋性。2024年ICLR傑出論文《KAN: Kolmogorov-Arnold Networks》由Liu等人提出了一種根植於數學經典定理──Kolmogorov-Arnold表示定理的新型神經網路架構,顛覆了傳統MLP的設計理念,不僅在理論上拓展神經網路的表達能力,也在實務應用中呈現卓越性能,展現深遠的研究與應用潛力。

研究背景與動機

Kolmogorov-Arnold表示定理(以下簡稱KA定理)指出,任何多元連續函數皆可用有限組合的單變量函數與加法組合來精確表示。該定理的結果在數學函數逼近領域具有極大啟發性,然而深度學習領域的神經網路卻長期依賴多維輸入與線性權重的結合來實現函數逼近。傳統MLP內部的激活函數固定不可學習,且權重以純量形式存在,這導致兩大問題:其一是網路參數多且冗餘,模型訓練需要大量資源;其二是在模型解釋性方面存在缺陷,使用者難以直觀理解網路何以做出判斷。

本論文之所以提出KAN(Kolmogorov-Arnold Networks),即是希望利用KA定理的思想,轉化「權重」角色,由原本的「單點線性係數」轉變為「可學習的一維函數」,徹底顛覆傳統神經網路架構中“權重”的定義,提升模型的精準度與可解釋性。

核心方法與創新

KAN的關鍵創新在於將神經網路中的「邊權重」完全替換為可學習的單變量函數。與既有MLP中「節點」帶固定激活函數且邊權重為純量不同,KAN架構將每條連接的權重視為一個參數化的一維函數,該函數採用分段三次樣條(spline)進行逼近,並在訓練過程中直接優化這些函數的形狀。

  • 權重函數化:每條邊的權重不再是一個純量,而是一個單變量函數w(x),其中變量x即為該邊對應的輸入節點輸出。此設計讓網路可以針對不同輸入值自適應調整「權重」,極大提升了表達自由度。
  • 無線性權重參數:KAN徹底取消了線性權重矩陣,網路參數全部由這些樣條函數的控制點所組成。如此一來,網路不僅更貼合KA定理的函數分解架構,且理論上可細緻地捕捉輸入與輸出之間的高度複雜非線性關係。
  • 易於視覺化與解讀:由於每條邊以函數形式存在,用戶可直接觀察這些函數曲線形狀,幫助理解網路如何透過局部非線性映射調整權重,從而提高模型的可解釋度及與專家互動的直觀性。

主要實驗結果

作者透過多組實驗驗證KAN的優越性,特別在精度、擴展性與可解釋性方面有顯著突破。

  1. 資料擬合與偏微分方程求解:在典型資料擬合任務中,較小規模的KAN比起多倍於其參數數量的MLP依然可展現同等或更優的預測精度。尤其在利用深度學習求解偏微分方程(PDE)方面,KAN因其靈活控制權重函數形態,能更精準捕捉問題本質的非線性變化,表現優於傳統MLP網路,且收斂速度更快。
  2. 神經尺度定律(Neural scaling laws):理論及實證數據皆指向,KAN展現出比MLP更佳的神經尺度效率。也就是說,隨著模型規模與訓練資料量增加,KAN的性能提升趨勢更顯突出,訓練成本效益更高。
  3. 可視化解釋及科學發現輔助:作者展示了兩個具挑戰性的科學案例:數學函數公式重構與物理定律尋找。KAN的權重函數可視化功能,促使它成為科學家強而有力的「合作夥伴」,助力研究者重新發現或驗證數學與物理中的潛在規律。

對 AI 領域的深遠影響

KAN將傳統神經網路重塑為以函數為單位的靈活架構,具有多方面革命性意義:

  • 重新定義神經網路參數空間:透過函數化權重的架構設計,不再局限於純量權重矩陣,這為深度學習模型提供了理論上更豐富的函數表示能力,開拓新的結構設計空間。
  • 提升模型可解釋性和人機互動:傳統MLP是黑盒式結構,而KAN在可視化及調整權重函數的能力使模型更「透明」,符合當代理解與可信AI的需求,有助於專家與系統間的直觀溝通與協作。
  • 縮小模型規模,降低訓練成本:KAN相較多層且參數巨大的MLP,能以更小規模達成精確的函數擬合目標,尤其在科研領域求解複雜問題時大幅降低計算負擔。
  • 結合經典數學理論引領神經網路設計:KAN體現了數學嚴謹和深度學習創新融合的典範,打開利用更多數學工具重新設計神經架構的可能性,推動AI研究向更扎實及理論把握的方向發展。

總結而言,《KAN: Kolmogorov-Arnold Networks》論文通過巧妙借鑑KA表示定理,提出了一種嶄新的神經網路範式——使得邊權重不再是固定的純量,而是靈活可調的函數,創新結合數學理論和深度學習實踐。KAN不僅在模型效能、數據擬合、科學發現輔助等方面卓有成效,也為未來神經網路架構設計指明新方向,極具前瞻性與廣泛應用價值,是深度學習架構研究的一大里程碑。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:

張貼留言