2026年5月25日 星期一

KAN: Kolmogorov-Arnold Networks 深度解析與前瞻

隨著深度學習技術的迅速發展,多層感知器(MLP)已成為基礎且關鍵的模型架構,廣泛應用於分類、迴歸和科學計算等多種任務。然而,傳統MLP的設計通常侷限於節點(single neuron)固有的激活函數,以及線性權重連結,這種架構在靈活性與可解釋性上存在瓶頸,也限制了模型的表達能力與縮放效率。ICLR 2024中,由劉等人提出的「Kolmogorov-Arnold Networks(KAN)」以Kolmogorov-Arnold表示定理為理論基礎,創新性地將激活函數從節點轉移到邊上,並完全取消了線性權重,開啟神經網路設計的一種全新視角。本文將深入解析KAN的理論根基、設計創新、實驗成果及其對AI領域的深遠意義。

研究背景與動機

傳統的MLP由多層神經元組成,每個神經元固定搭配激活函數(如ReLU、Sigmoid或Tanh),而學習的核心元素則是神經元間的線性權重。這種以節點為激活中心的設計長期以來為深度學習奠定基礎,但同時也存在著兩大挑戰:

  1. 表達能力限制:固定的激活函數導致整體網路在對複雜函數的逼近上需較多的參數和層數,效率較低。
  2. 可解釋性的不足:線性權重一旦結合非線性節點激活函數,模型整體的內部行為變得高度非線性且難以直接理解。

另一方面,數學中著名的Kolmogorov-Arnold表示定理證明,任何多變量連續函數均可被分解成若干一維函數和加法運算的組合。此定理在函數逼近理論層面提供了全新的解構思路,啟發研究團隊思考:能否將此定理的思想直接融入神經網路結構中,以「邊」為單位設計可學習的單維函數,打破MLP局限,實現更強大且具可解釋性的神經網路?這就是KAN提出的核心動機。

核心方法與創新

KAN的設計理念極具創新,顛覆傳統神經網路中權重與激活分工的慣例。其關鍵特點包括:

  • 無線性權重,全由單變數激活函數替代:在KAN中,節點不再擁有固定的激活函數,取而代之的是「邊」上的可學習激活函數,每條邊的權重由一維函數建模。這些一維函數採用樣條函數(Spline)參數化,具備靈活而可微的曲線表現,允許模型在邊連結上自訂非線性變換。
  • 模型架構符合Kolmogorov-Arnold定理分解形式:KAN利用定理提示的函數分解思路,將原先高維函數轉成多組一維函數加和的結構,搭配邊激活函數的多樣化使得模型在逼近多維函數時表現更高效。
  • 高度可視化與可解釋性:由於每條邊代表一個可視化的單變數函數,研究者能直接觀察並分析模型內部激活函數的形態,從而對模型行為進行解釋並與領域知識結合。

綜合而言,KAN不僅在結構設計上體現數學美感,更在模型訓練過程中拓展了參數學習的多樣性與靈活度,使得神經網路能以更少的參數實現更精準的函數逼近。

主要實驗結果

論文中作者從多個層面驗證KAN的優越性,包括人工合成數據擬合、偏微分方程(PDE)求解,以及在數學與物理領域的科學發現任務:

  • 數據擬合與PDE求解:實驗顯示,KAN在各類標準回歸與PDE問題上,以較小的模型容量即達到或超越傳統MLP的精度,證明其具備更優的參數效率和泛化能力。此外,KAN在訓練速度與神經縮放律(neural scaling laws)也展現出比MLP更佳的表現,意味著當模型和數據規模增大時,KAN精度提升更快。
  • 可解釋性與科學應用:透過具體案例,KAN成功幫助科研人員(重新)發現數學公式與物理定律。由於KAN的激活函數可視化,科學家能直接介入模型進行調整或以更直觀方式理解學習結果,提升了AI與專家合作的可能性。
  • 實驗中的穩定性與泛化:KAN在多次重複試驗中表現出良好的穩定性,模型的學習曲線平滑且易於收斂,並且在複雜領域知識的建模上展現優勢。

對AI領域的深遠影響

KAN的提出,為神經網路設計與深度學習理論帶來多重啟示:

  1. 拓展表達空間的架構創新:KAN宣告從節點激活函數到邊激活函數的轉換不僅可能,更能顯著提升模型性能,此創新挑戰了既有框架,使研究者反思「權重」的本質,從固定係數轉向可學習函數,成為未來架構設計的新路徑。
  2. 促進模型可解釋性研究:在AI負責任性與可解釋性需求日益高漲的今日,KAN以其直觀可視的激活函數形態,為研究人員提供了與模型內部機制直接互動的機會,促進人機協同與科學知識發掘。
  3. 提升科學計算與交叉領域應用的效率:從數學定律發現到物理系統模擬,KAN以較少的參數、高效的結構加速了科學計算任務,顯示此架構將成為AI輔助科研與工程的強大工具。
  4. 鞏固與推進神經縮放規律研究:KAN在模型規模與數據量擴充時展現出更快的性能提升,為理解深度學習的規模效應與結構效率提供了全新實驗基礎,並可能衍生出更加精細的網路縮放法則。

總結而言,KAN為深度學習架構提供了一種數學嚴謹且實務有效的替代方案,跳脫傳統MLP束縛,解鎖了更多模型創新和解釋能力的可能性。這項工作不僅僅是一篇技術進步的論文,更是未來神經網路設計與AI科學計算領域值得持續探索的里程碑。

對於工程師與研究生而言,KAN的結構和理論啟示可促使您重新思考神經網路設計要素,鼓勵嘗試使用可學習的非線性函數替換傳統線性權重,並致力於探索更具解釋性與效率的模型,助力解決複雜科學問題與實務應用。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:

張貼留言