行有餘力則以學文: KAN: Kolmogorov-Arnold Networks 深度解析

在現代深度學習領域中，多層感知器（Multi-Layer Perceptrons，MLPs）作為基礎的神經網路結構，因其簡潔且易於優化的特性，廣泛應用於各類問題中。然而，MLPs 的設計通常假設固定且不可學習的激活函數（如 ReLU、Sigmoid 等），且其權重是線性的純量。這種架構雖然行之有年，但在表達能力、模型擴展性及解釋性方面仍存在限制。由此，2024 年 ICLR 上由 Liu 等人發表的《KAN: Kolmogorov-Arnold Networks》榮獲傑出論文獎，其核心創新是提出一種全新結構的神經網路模型——Kolmogorov-Arnold Networks（KAN），有望成為 MLP 的有力替代方案，做到同時提升模型性能與可解釋性。

研究背景與動機

本論文的靈感來自數學界知名的 Kolmogorov-Arnold 表示定理，該定理指出任意多變數連續函數可分解成若干 univariate 函數的組合。這一理論框架為神經網路的架構設計提供了新視角。傳統 MLP 網路的特點是節點上的激活函數固定，而權重是標量乘積；而根據 Kolmogorov-Arnold 定理，理想的多變數函數表示應能將權重參數本身「函數化」，即用可學習的 univariate 函數替代純量權重。於是，本研究提出 KAN 利用 spline（樣條函數）來參數化這些函數化的權重，意圖透過更靈活的 “可變激活函數” 取代傳統的固定非線性，帶來更強大的函數近似能力。

核心方法與創新

KAN 在結構上徹底顛覆 MLP，「權重」不再是單一線性係數，而是被設計為帶有可參數化單變數函數特性的曲線（使用樣條函數進行參數化）。具體來說，整個神經網路不再僅由線性映射與固定非線性組成，而是由多個 learnable 函數（每條邊一個 univariate spline）組合而成。其最大亮點在於：

無線性權重設計：每一條神經連結的權重被一個可微、可調節的單變數函數取代，這在以往神經網路設計中尚屬首創。
激活函數可學習：透過函數形式權重，激活作用相較於傳統 neuron-centric 的不可更改函數，更靈活且具解釋意義。
透過 Kolmogorov-Arnold 理論正當化設計：根據該定理，能保證用這種函數組成可以理論上精確逼近任意連續多維函數，有較強的數學基礎支撐。
高度可視化與互動性：由於權重本身為函數形式，研究者可以直觀地透過圖形化方式觀察與解釋學習到的函數形態，促進人機協作。

主要實驗結果

實驗部分，作者涵蓋多種重要場景，包括數據擬合（function approximation）以及偏微分方程（PDE）求解，並與對標的 MLP 進行多組嚴格對比。重要發現如下：

較小模型達成更優性能：比起擁有龐大參數的 MLP，KAN 在訓練精度與泛化表現上均顯著優越。即便使用較少的參數，KAN 也能達到甚至超越 MLP 的效能。
神經擴展定律（Neural Scaling Laws）更為迅速：理論分析與實驗結果均顯示，KAN 隨網絡規模增大，性能成長速度快於傳統 MLP，顯示未來大規模應用潛力。
實務場景中展現科學價值：透過兩個數學和物理領域案例，KAN 不僅能精準擬合數據，還能協助科學家發現與詮釋潛在的數學及物理規律，促進科研的自動化與智能化。
可解釋性提升明顯：傳統神經網路多被視為「黑盒」，但 KAN 中學習到的權重函數可以被人類用直覺理解與檢視，提升模型透明度與信任度。

對 AI 領域的深遠影響

KAN 作為 MLP 的一種結構性改進，挑戰了我們對深度神經網路權重與激活函數組成的傳統理解，提供了一條從數學理論到模型設計的全新范式。該研究具有多方面的意義：

重塑神經網路基礎構件認知：KAN 將權重視為函數，為深度學習中參數設計開啟了新一輪思考，未來可望激發更多具函數化思想的模型架構。
促進更高效且解釋的 AI 系統：由於函數性權重可視化與交互特性，KAN 在應用到科學計算、工程模擬甚至醫療診斷中，有較強的透明度與可信度，有助提升 AI 的普遍接受度與安全性。
加速科學研究自動化：KAN 可視為一個具備發現數學與物理規律能力的科研助手，未來將推動 AI 在自然科學中成為更積極的合作伙伴。
拓展神經網路理論與實踐的橋樑：藉由 Kolmogorov-Arnold 理論的嚴密數學基礎，KAN 填補了神經網路模型設計與經典數學理論間的空白，帶動跨領域研究的合作。

總結而言，KAN 代表了神經網路架構演化的一次重要嘗試，通過從權重參數的本質開始革新，在理論與應用層面均展現出極大潛力。未來，隨著該模型及其變體的深入研究與優化，預計能為深度學習模型帶來革新性的效率提升與解釋機制，成為繼 MLP 之後的新一代深度學習基石。

推薦具備基礎神經網路知識的讀者深入閱讀此論文，了解其細節設計與實驗架構，不僅能汲取前沿模型創新的思路，更有助於將 Kolmogorov-Arnold 理論應用於更廣泛的 AI 模型研發。

論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

行有餘力則以學文

常用資訊速查

2026年4月30日星期四

KAN: Kolmogorov-Arnold Networks 深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

2026年4月30日 星期四

KAN: Kolmogorov-Arnold Networks 深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

2026年4月30日星期四