常用資訊速查

2026年4月6日 星期一

KAN: Kolmogorov-Arnold Networks 深度解析—以可學習激活函數革新神經網路結構

在深度學習技術快速發展的當下,多層感知機(MLP, Multi-Layer Perceptron)依然是眾多模型架構的核心組件,無論是在圖像處理、語音辨識、自然語言處理,還是科學計算等多方面,都扮演著不可或缺的角色。然而,MLP 本身的基本構造——固定的激活函數搭配線性權重——已經逐漸顯現出某些限制,例如模型可解釋性的不足與擴展性挑戰。ICLR 2024 年獲得 Outstanding Paper 的論文《KAN: Kolmogorov-Arnold Networks》由劉等人提出了一個富有創新性的結構替代方案,結合經典的數學理論與現代神經網路設計,提出了名為 Kolmogorov-Arnold Networks(KAN)的新型神經網路架構,為神經網路設計開創了新方向。

研究背景與動機

經典的多層感知機架構以固定的非線性激活函數(如 ReLU、Sigmoid、Tanh)置於每個神經元節點,再輔以權重與偏差參數,來學習複雜的函數映射。雖然此結構已被證明具有通用逼近能力,但激活函數本身並非可訓練,限制了模型靈活性與表達能力。此外,現代深度學習模型在參數數目與計算資源上不斷擴張,越來越難以解釋及優化。

KAN 的設計靈感來自數學經典定理——Kolmogorov-Arnold 表示定理。該定理指出,任何多變數連續函數均可分解為若干個單變數函數組合。借由將這一數學理論引入神經網路架構設計,作者提出將神經元節點上的固定激活函數,換成「可學習的單變數函數」,且這些函數定義在「權重連接的邊」上。在此架構下,傳統 MLP 中的線性權重完全被一維函數所取代,且這些函數以可微分的樣條(spline)曲線來表示,以提升模型的表達力與訓練穩定性。

核心方法與創新

KAN 的核心創新在於打破 MLP 固有的“節點激活函數固定、權重線性變換”的慣例,重新定義網路的基本構成:

  • 可學習激活函數於連接邊緣:在 KAN 中,每一條神經元連接的權重不是一個固定參數,而是一個可訓練的單變數非線性函數。透過對這些邊緣函數的優化,使模型能更靈活地表達複雜變換。
  • 無線性權重結構:與傳統 MLP 完全不同,KAN 徹底摒棄了線性權重,每個模型參數即是函數的函數形狀參數,透過樣條曲線參數化來實現連續且可微的函數空間探索。
  • 函數參數化方法:為了方便訓練與微分,作者選擇以 spline(分段多項式)形式來建模每條邊的函數,這使得梯度計算高效且穩定,並能有效避免激活函數設定不當帶來的表達瓶頸。

整體而言,KAN 利用 Kolmogorov-Arnold 表示定理的思想,將原本固定的激活操作變成了動態可控、可優化的函數映射,大幅增加了模型的靈活度與非線性轉換能力。

主要實驗結果

作者在多個維度進行了廣泛且嚴謹的性能評估,突出展示了 KAN 的優勢:

  • 精準度提升:在傳統的監督式學習任務中,KAN 以明顯較小的模型規模達成或超越等量巨大 MLP 的準確率,體現出更優的參數效率與學習效果。
  • 偏微分方程(PDE)求解:KAN 展現了在解決科學計算中經典 PDE 問題上的競爭力,憑藉更靈活的函數表示,能夠快速逼近精確解,甚至媲美或超越專門的數值解法程序。
  • 神經網路擴展規則(scaling laws):理論與實驗結果皆表明,KAN 在參數增加時的性能提升速度優於傳統 MLP,代表其擴展潛力更佳,能更有效利用額外的計算與參數資源。
  • 可解釋性與人機互動:由於每條邊對應的激活函數都可視化且可解析,使用者能直觀理解網路決策機制。論文中還通過實驗展示,KAN 甚至能協助數學和物理學家從數據中「重新發現」已知的數學公式與物理定律,展現其在科學研究場景的應用潛力。

對 AI 領域的深遠影響

KAN 的提出不僅是一個技術上的突破,更是一個觀念上的革新。以往神經網路設計多止步於如何調整層數、節點數以及固定形式的激活函數,KAN 則從激活函數的可學習性出發,挑戰主流網路的基本元素定義。這種從數學基礎理論導出的結構改造,使得深度學習模型取得以下長遠意義:

  1. 重新定義神經網路可塑性:KAN 說明神經網路結構中「激活函數」並非唯一或固定形式,學會從更底層結構動態學習激活形態,可讓模型更靈活適應特定任務需求。
  2. 優化參數效率與訓練穩定性:將權重替換成函數,有助於減少模型所需的自由參數數量,同時降低過擬合風險,促進更平滑的訓練曲線。
  3. 促進可解釋 AI 進程:函數可視化和操作性為黑盒神經網路注入透明度,推動可解釋人工智慧發展,更容易促成 AI 與人類專家間的有效協作。
  4. 跨學科橋梁:將 Kolmogorov-Arnold 定理這類純數學理論引入神經網路設計,促進了數學、物理、工程與機器學習的互動與交叉,為 AI 在科學研究中作為「輔助發現工具」提供了強大支持。
  5. 啟發未來模型架構革新:KAN 為神經網路設計注入了新思路,未來有望帶動更多從結構層面創新的模型形成,超越傳統 MLP 架構的限制,使深度學習進一步向更高效、更通用的方向演進。

總結而言,KAN: Kolmogorov-Arnold Networks 論文以其理論深度與實驗廣度,提出了一套既富有數學美感又兼具實用價值的新型神經網路架構。它不僅在傳統任務中展示出優越性能,更在可解釋性與跨學科應用中展現巨大潛力,昭示著深度學習未來架構設計的新藍海。對研究者而言,KAN 不僅是技術方案,更是探索神經網路本質與擴展可能性的啟發之作。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:

張貼留言