2026年3月29日 星期日

KAN: Kolmogorov-Arnold Networks 深度解析—突破傳統 MLP 的創新架構

在深度學習領域中,多層感知器(Multi-Layer Perceptrons,簡稱 MLP)長期以來都是神經網路的基石模型,其架構包括固定形式的節點激活函數與線性權重參數。然而,ICLR 2024 年榮獲 Outstanding Paper 獎的論文《KAN: Kolmogorov-Arnold Networks》由劉立(Liu)、王鵬(Wang)、Vaidya 等人所提出的一項突破性架構,挑戰了傳統 MLP 的設計範式,藉由結合數學界知名的 Kolmogorov-Arnold 表示定理,創造出一種全新神經網路——Kolmogorov-Arnold Networks(KAN),展現出更優異的表現與解釋力。

研究背景與動機

目前深度神經網路的設計,核心在於利用節點上的激活函數搭配連結邊上的線性權重,來建模複雜的非線性函數映射。然而,這種「節點固定激活、邊線性權重」的方式,某些程度限制了模型的靈活度與表達能力,尤其在解析性與可解釋性方面仍有不足。另一方面,從數學理論視角看,Kolmogorov-Arnold 表示定理提供了一種將任意連續多變數函數分解成有限組合單變數函數的結構,這啟發研究團隊思考,若能將此理論融入神經網路架構,便能在模型設計上帶來根本性的革新。

具體動機在於:1) 探索「參數化激活函數」的可能性——將激活函數不再固定於節點,而改為學習式的單維函數掛載在連接邊上;2) 在保有強大表達能力的同時,提升模型的解釋性與內部機制的透明度;3) 透過基於理論定理的架構設計,促使模型在數據擬合與科學問題(如偏微分方程求解)中展現更有效率與精度。

核心方法與創新點

KAN 的核心技術革命在於它完全捨棄傳統的線性權重參數,取而代之的是以「邊權激活函數」取代。這些「權重」不再是單一標量參數,而是經過參數化的單變數函數,通常以樣條(spline)函數的形式實現。也就是說,網路中每條連接邊都代表一個可學習的單變數非線性函數,而非純粹的數值乘法因子。

此架構靈感直接源自 Kolmogorov-Arnold 表示定理:該定理指出,任意連續多元函數都能表示為有限組合的單變數函數。KAN 便利用此概念,透過多層組合結合單變數激活函數,在邊上學習適合的函數形態,取代傳統 MLP 的線性權重疊加與節點固定激活。

KAN 的主要創新包括:

  • 可學習的激活函數分佈於邊權:傳統神經元的激活函數形式固定(如 ReLU、Sigmoid),而 KAN 讓激活函數本身可透過樣條參數化並學習,讓非線性模組化更自然且富有彈性。
  • 完全去除線性權重參數:將神經網路每條邊權重替換為函數形式,使每次傳遞的訊息是經過非線性曲線變換,理論上可表達更複雜的函數空間。
  • 輕量且高效的模型:由於函數以少量參數的樣條表示,實驗中驚人體現出較小的 KAN 網路即可匹敵甚至超越大規模 MLP,在精度與參數量間取得理想平衡。
  • 優越的可解釋性:由於「權重」即為可視化的單變數函數,研究者與使用者可以直觀地觀察這些函數形態,理解模型如何進行映射,提升人機互動。

主要實驗結果

論文中全面比較了 KAN 與傳統 MLP 在多種任務上的效能,重點結果包括:

  • 資料擬合問題:在各類非線性函數擬合任務中,KAN 較小體量的模型就能達到甚至超越大幅度增加參數的 MLP,展現出更優的泛化能力與收斂速度。
  • 偏微分方程(PDE)求解:KAN 能成功捕捉高維複雜 PDE 解的結構,且在數值穩定性與精度上超越傳統 MLP 方法,證明其在科學計算領域的潛力。
  • 神經縮放定律(Neural Scaling Laws):理論與實驗均顯示 KAN 具有更快速的誤差衰減曲線,意味著模型規模擴大時,其效益提升速度超過傳統 MLP。
  • 可解釋性實際示範:論文展示數學與物理領域的兩個案例,透過視覺化 KAN 邊函數,幫助科學家挖掘並重構隱藏的數學方程或物理規律,顯示 KAN 是值得信賴的科學探索夥伴。

對 AI 領域的深遠影響

KAN 的提出代表了神經網路架構設計的一次根本性挑戰與創新,除了學術理論上的意義,更衝擊了實務與未來發展:

  • 開啟結構性非線性參數化新思路:KAN 以函數取代純參數權重的設計拆解,極大拓展了神經網路學習的靈活度與多樣性,未來可能催生更多類似「函數型參數」的模型創新。
  • 促進深度模型的可解釋性研究:由於每條邊的激活函數均可視化並理解,KAN 提供一條可行的途徑改善黑盒神經網路的透明度與可控度,促進人機協同與安全 AI 發展。
  • 助力科學計算與跨域應用:在偏微分方程求解、物理現象建模等科學問題上,KAN 證明了其強大的數值精度與泛化能力,未來可望成為科學家、工程師的核心工具,推動科學發現與工程設計。
  • 推動神經網路理論進步:KAN 與 Kolmogorov-Arnold 表示定理的結合,實現了一種基於嚴謹數學結構的神經網路設計路徑,將促使未來神經網路理論與實踐融合更加緊密。
  • 打破 MLP 作為標準基底的二元格局:大多數現代深度學習框架底層仍依賴傳統 MLP 模組,KAN 的成功證明了「非線性函數作為權重」的架構路線不僅可行而且更具優勢,未來可望改寫神經網路設計規範。

總結來說,KAN 代表了深度學習模型設計的新里程碑。它不僅以 Kolmogorov-Arnold 理論為數學基礎,架構上完全顛覆了節點激活與權重參數化的既有模式,還提供了一套具備更高效、精準與解釋友好的替代方案。對於追求模型性能與可解釋性的工程師與研究者而言,KAN 不啻為一盞具有開拓意義的指路明燈,未來值得在更多實際領域深入探索與應用。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:

張貼留言