行有餘力則以學文: KAN: Kolmogorov-Arnold Networks 深度解析—以可學習激活函數革新神經網路結構

在深度學習技術快速發展的當下，多層感知機（MLP, Multi-Layer Perceptron）依然是眾多模型架構的核心組件，無論是在圖像處理、語音辨識、自然語言處理，還是科學計算等多方面，都扮演著不可或缺的角色。然而，MLP 本身的基本構造——固定的激活函數搭配線性權重——已經逐漸顯現出某些限制，例如模型可解釋性的不足與擴展性挑戰。ICLR 2024 年獲得 Outstanding Paper 的論文《KAN: Kolmogorov-Arnold Networks》由劉等人提出了一個富有創新性的結構替代方案，結合經典的數學理論與現代神經網路設計，提出了名為 Kolmogorov-Arnold Networks（KAN）的新型神經網路架構，為神經網路設計開創了新方向。

研究背景與動機

經典的多層感知機架構以固定的非線性激活函數（如 ReLU、Sigmoid、Tanh）置於每個神經元節點，再輔以權重與偏差參數，來學習複雜的函數映射。雖然此結構已被證明具有通用逼近能力，但激活函數本身並非可訓練，限制了模型靈活性與表達能力。此外，現代深度學習模型在參數數目與計算資源上不斷擴張，越來越難以解釋及優化。

KAN 的設計靈感來自數學經典定理——Kolmogorov-Arnold 表示定理。該定理指出，任何多變數連續函數均可分解為若干個單變數函數組合。借由將這一數學理論引入神經網路架構設計，作者提出將神經元節點上的固定激活函數，換成「可學習的單變數函數」，且這些函數定義在「權重連接的邊」上。在此架構下，傳統 MLP 中的線性權重完全被一維函數所取代，且這些函數以可微分的樣條（spline）曲線來表示，以提升模型的表達力與訓練穩定性。

核心方法與創新

KAN 的核心創新在於打破 MLP 固有的“節點激活函數固定、權重線性變換”的慣例，重新定義網路的基本構成：

可學習激活函數於連接邊緣：在 KAN 中，每一條神經元連接的權重不是一個固定參數，而是一個可訓練的單變數非線性函數。透過對這些邊緣函數的優化，使模型能更靈活地表達複雜變換。
無線性權重結構：與傳統 MLP 完全不同，KAN 徹底摒棄了線性權重，每個模型參數即是函數的函數形狀參數，透過樣條曲線參數化來實現連續且可微的函數空間探索。
函數參數化方法：為了方便訓練與微分，作者選擇以 spline（分段多項式）形式來建模每條邊的函數，這使得梯度計算高效且穩定，並能有效避免激活函數設定不當帶來的表達瓶頸。

整體而言，KAN 利用 Kolmogorov-Arnold 表示定理的思想，將原本固定的激活操作變成了動態可控、可優化的函數映射，大幅增加了模型的靈活度與非線性轉換能力。

主要實驗結果

作者在多個維度進行了廣泛且嚴謹的性能評估，突出展示了 KAN 的優勢：

精準度提升：在傳統的監督式學習任務中，KAN 以明顯較小的模型規模達成或超越等量巨大 MLP 的準確率，體現出更優的參數效率與學習效果。
偏微分方程（PDE）求解：KAN 展現了在解決科學計算中經典 PDE 問題上的競爭力，憑藉更靈活的函數表示，能夠快速逼近精確解，甚至媲美或超越專門的數值解法程序。
神經網路擴展規則（scaling laws）：理論與實驗結果皆表明，KAN 在參數增加時的性能提升速度優於傳統 MLP，代表其擴展潛力更佳，能更有效利用額外的計算與參數資源。
可解釋性與人機互動：由於每條邊對應的激活函數都可視化且可解析，使用者能直觀理解網路決策機制。論文中還通過實驗展示，KAN 甚至能協助數學和物理學家從數據中「重新發現」已知的數學公式與物理定律，展現其在科學研究場景的應用潛力。

對 AI 領域的深遠影響

KAN 的提出不僅是一個技術上的突破，更是一個觀念上的革新。以往神經網路設計多止步於如何調整層數、節點數以及固定形式的激活函數，KAN 則從激活函數的可學習性出發，挑戰主流網路的基本元素定義。這種從數學基礎理論導出的結構改造，使得深度學習模型取得以下長遠意義：

重新定義神經網路可塑性：KAN 說明神經網路結構中「激活函數」並非唯一或固定形式，學會從更底層結構動態學習激活形態，可讓模型更靈活適應特定任務需求。
優化參數效率與訓練穩定性：將權重替換成函數，有助於減少模型所需的自由參數數量，同時降低過擬合風險，促進更平滑的訓練曲線。
促進可解釋 AI 進程：函數可視化和操作性為黑盒神經網路注入透明度，推動可解釋人工智慧發展，更容易促成 AI 與人類專家間的有效協作。
跨學科橋梁：將 Kolmogorov-Arnold 定理這類純數學理論引入神經網路設計，促進了數學、物理、工程與機器學習的互動與交叉，為 AI 在科學研究中作為「輔助發現工具」提供了強大支持。
啟發未來模型架構革新：KAN 為神經網路設計注入了新思路，未來有望帶動更多從結構層面創新的模型形成，超越傳統 MLP 架構的限制，使深度學習進一步向更高效、更通用的方向演進。

總結而言，KAN: Kolmogorov-Arnold Networks 論文以其理論深度與實驗廣度，提出了一套既富有數學美感又兼具實用價值的新型神經網路架構。它不僅在傳統任務中展示出優越性能，更在可解釋性與跨學科應用中展現巨大潛力，昭示著深度學習未來架構設計的新藍海。對研究者而言，KAN 不僅是技術方案，更是探索神經網路本質與擴展可能性的啟發之作。

論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

行有餘力則以學文

常用資訊速查

2026年4月6日星期一

KAN: Kolmogorov-Arnold Networks 深度解析—以可學習激活函數革新神經網路結構

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

2026年4月6日 星期一

KAN: Kolmogorov-Arnold Networks 深度解析—以可學習激活函數革新神經網路結構

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

2026年4月6日星期一