在當代深度學習的架構中,多層感知機(MLP)扮演著基礎且不可或缺的角色。無論是在自然語言處理、電腦視覺,還是科學計算的神經網路中,MLP 作為核心模組多被用來學習複雜的非線性映射。然而,傳統的 MLP 節點激活函數通常是固定且不可訓練的,如ReLU、Sigmoid等,而邊權重則為線性標量。這也意謂著模型的參數空間和結構在一定程度上受限,無法靈活適配多種數據和應用場景。ICLR 2024 傑出論文“KAN: Kolmogorov-Arnold Networks”由劉劍等人突破這項限制,提出一種基於經典數學理論的全新神經網路架構——Kolmogorov-Arnold Networks(KAN),成功將數理定理與機器學習相結合,帶來訓練效率、表達能力和解釋性三重提升。
研究背景與動機
Kolmogorov-Arnold 表示定理是數學界對任意多變量連續函數表達的一項重要理論,其核心在於將高維函數表示為數個一維函數的組合。此定理啟發團隊重新思考傳統 MLP 架構中「節點激活函數不可學習、權重為純量」的框架限制。傳統 MLP 權重是純數值,但能表示的非線性變換有其侷限,且較難被直覺理解。團隊想像,如果將「權重」參數變成可學習的單變量函數,而不是單一係數,是否能提升網路的表達力與泛化效果?更重要的是,是否能帶來更好的模型解釋性,有助於揭露數據的內在結構,甚至協助科學家發現隱含規律?
核心方法與技術創新
KAN 的最大創新在於徹底顛覆 MLP 以線性權重做連結的思維。傳統 MLP 中,每個節點的輸出公式為激活函數作用於權重與輸入的點積。KAN 把每一條連結(邊)上的純數字權重拿掉,取而代之的是「可參數化的一維函數」,並以樣條(spline)函數形式來建模這些函數。換言之,每條邊都是一個函數映射,將節點輸入值映射到輸出值,這使網路的非線性表達更加靈活且多樣。
具體來說,KAN 中沒有線性權重,而是由一系列經過訓練的單變量樣條函數串接組成。激活函數不再侷限於節點,而是分佈在線路上,形成一種「功能更強大的邊激活」機制。此架構自然符合 Kolmogorov-Arnold 定理中將高維函數拆解成一維函數組合的思想,是理論與架構上的一大突破。
由於每條邊代表一個單變量函數,KAN 模型可利用可視化工具直觀展現函數形式,提升模型的透明度與人機互動性。這點對於解釋型 AI 研究尤其有價值,不僅幫助開發者理解模型行為,也為科學研究提供了洞察力。
主要實驗結果與優勢分析
團隊在多項醫學函數擬合與偏微分方程(PDE)求解實驗中,比較了 KAN 與標準 MLP 的性能。結果顯示:
- 更高的精準度:KAN 在數據擬合任務中,為達到甚至超越 MLP 同等效果,其總參數量通常少了好幾倍。換句話說,KAN 更節省樣本與模型容量卻不損失效果。
- 快速的神經擴展規律:理論分析與實驗皆表明,KAN 在隨模型規模擴大時,其誤差下降速度較傳統 MLP 更快,展現出更優良的神經網路擴展性(neural scaling law)。
- 優秀的解釋性:由於每條邊為可視化單變量函數,研究者可以直接觀察到網路中各個輸入變數通過網路的非線性轉換形態,使得模型行為變得易於分析與改進。
此外,作者展示了兩個跨領域的應用示例,分別為數學與物理領域,利用 KAN 協助重新發現傳統的數學函數結構與物理定律,證明其並非僅為單純的黑盒模型,而是科學發現的強力工具。
對 AI 領域的深遠影響
KAN 的提出,開啟了神經網路架構設計的一條嶄新道路。它不僅挑戰了已有深度學習模型中固定激活與線性權重的習慣,還提供了一套結合經典數學理論與深度學習的新思維模式:
- 數學定理指導下的網路結構創新:利用 Kolmogorov-Arnold 理論作為架構設計啟發,鼓勵未來研究者探索更多古典數學工具在深度學習中的應用。
- 提升模型解釋性與人機交互:KAN 的可視化特性促進模型透明化,為解釋型 AI 研究提供範例,利於產業與科研中的採用與信任建立。
- 更高效的模型訓練與泛化:由於參數空間從純標量轉向函數空間,KAN 展示出更具彈性且縮減參數的特性,為資源有限環境與少樣本情境提供更佳選項。
- 跨領域科學挖掘輔助:KAN 成為數學和物理等自然科學領域發現隱含規律的計算工具,有潛力推動科學探索新型態,結合 AI 與傳統科學知識。
總結而言,KAN 不僅提供了 MLP 的有力替代方案,也擴展了深度學習架構創新的視野。基於可學習的單變量函數替代線性權重,得以兼顧準確度、效率和可解釋性,成為引領未來神經網路設計的重要里程碑。隨著後續研究持續深入,我們有理由期待 KAN 在實務應用、跨科學領域與基礎理論等多個方向帶來更多突破,進一步推動人工智慧走向更智慧、更透明的未來。
論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

沒有留言:
張貼留言