2026年6月6日 星期六

KAN: Kolmogorov-Arnold Networks 深度解析 — 以可學習激活函數顛覆傳統 MLP 的新架構

隨著深度學習的持續發展,多層感知機(Multi-Layer Perceptrons, MLPs)因其結構簡潔且易於訓練,成為神經網絡中廣泛應用的基礎模型。然而,MLP 一貫採用固定的節點激活函數(如ReLU、sigmoid、tanh 等),其參數主要集中於連結權重上,這種架構雖然功效顯著,但也限制了模型在學習非線性函數上的靈活性與表達力。針對這個瓶頸,2024 年 ICLR 傑出論文〈KAN: Kolmogorov-Arnold Networks〉提出一種根植於數學深厚理論基礎——Kolmogorov-Arnold 表示定理的新型神經網絡架構,透過革命性地改變「權重」的本質與表現形式,成功突破傳統 MLP 的限制,為深度學習領域帶來全新視野。

研究背景與動機

Kolmogorov-Arnold 表示定理是數學界一項重要成果,其核心論點為任一多變數連續函數均可由一組特定的單變數函數及加法運算表示。此理論不僅提供理論基礎,也啟發作者思考:是否能將深度神經網絡的構成要素之一——連結權重,從傳統的線性參數,改寫為形式更加靈活的函數形式?現有 MLP 結構中,權重本質是標量權重係數,而激活函數則是節點層固定設定的非線性函數。這使得模型的非線性表示能力受到激活函數形式的限制,且權重靈活度有限。作者動機即在於突破此設計瓶頸,藉由將「權重」本身設計成可學習的單變數函數,讓模型在非線性表示上得到更大自由度,進而提升準確性與可解釋性。

核心方法與創新

KAN 全名為 Kolmogorov-Arnold Networks,核心架構的重大突破在於「無線性權重」,而是將傳統神經網絡中每條邊的權重轉變成一組可學習的單變量函數。具體而言,每條連結的參數不再是單一係數,而是使用例如樣條(spline)函數等可微且具靈活度的函數型態,作為激活以及乘法的基本單元。

這樣的設計帶來三項關鍵優勢:

  1. 可學習的激活函數分散於邊上:傳統 MLP 是節點上的固定激活函數,KAN 則將激活函數散佈到網絡連結上,讓整體網絡結構呈現出類似多層次函數組合的表示形式。
  2. 無線性權重限制:整個網絡不再含有單純的線性權重,透過單變數函數擴展其表達能力,理論與實驗皆證明此種形式有更好的逼近複雜函數的能力,尤其適合用於數據擬合及偏微分方程(PDE)求解。
  3. 解釋性與可視化高:由於權重本質是可視化的函數(如樣條曲線),研究人員可以直接觀察每條邊的函數形態,進而理解模型所學習的模式及邏輯,提升人機互動和模型可解釋性。

此架構的數學基礎來自 Kolmogorov-Arnold 表示定理,強調多維非線函數可由一組結構化的單變數函數合成,這與 KAN 用多條可學習函數「邊」組合多層非線性映射不謀而合,為模型的架構設計提供堅實理論支持。

主要實驗結果

作者在多項嚴謹實驗中驗證 KAN 的優越性。首先,在合成數據擬合任務中,KAN 以遠少於參數數量的模型大小,達成同等甚至超越傳統大型 MLP 的準確度。這強調了 KAN 在參數效率上的優勢,意味著更小模型也可以具有極強的非線性表示能力。

其次,在偏微分方程求解這類復雜科學計算任務中,KAN 不僅成功逼近解空間,且明顯優於同尺寸的 MLP,展現出對物理法則隱含結構的強大捕捉能力。這項成果顯示 KAN 不只是純粹的數據黑箱,還能做為數學與科學研究的有效輔助工具。

此外,作者進一步展示了 KAN 在解釋性上的突破:利用可視化單變數函數,有助人類直觀理解模型對輸入資料變換的內部機制,尤其在科學探索上可協助科學家重新發現或驗證數學與物理定律,顯示其在人機協同創新上的巨大潛力。

對 AI 領域的深遠影響

KAN 的問世標誌著「權重非線性函數化」的可行性與優勢,為深度學習架構設計開拓新的方向。過去近代深度學習的發展較多專注於架構深度、網絡寬度、正則化技術及激活函數變革,但普遍仍以固定神經元激活函數與線性權重為設計基石。KAN 推翻了這一觀念,探索「可學習激活函數分散於邊」的新范式,有望促成更靈活強大的網絡結構。

理論層面,KAN 建立在嚴謹的數學定理上,不僅提升模型逼近任意函數的能力,也帶來更佳的神經網絡縮放律(scaling laws),意味著模型擴大不僅帶來性能提升,且提升速度更快,對海量數據與龐大模型訓練具有明顯意義。

實務層面,KAN 支持模型推理與人類直觀解讀的橋接,這是當前 AI 領域追求可解釋 AI(XAI)核心目標之一。在對科學計算、物理模擬及數學探索等專業領域,KAN 能協助研究人員突破黑盒困境,加快科學發現過程。

總而言之,KAN 為深度學習帶來一種新思維,將可學習激活函數擴展到神經網絡邊權重的設計,不只是提升準確度,更提供優秀的模型可視化與可解釋性,極具潛力成為未來機器學習架構的重要基石,有助於推動 AI 技術在更廣泛科學及工業領域的應用。

對 AI 研究人員與工程師而言,KAN 是一個值得深入探索並嘗試集成於既有深度學習框架中的另類架構,尤其適合於需要高準確度與強表達力的複雜問題解決,也為可解釋性 AI 與人機協作開創新契機。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:

張貼留言