行有餘力則以學文: Mamba: Linear-Time Sequence Modeling with Selective State Spaces

2026年4月6日星期一

Mamba: Linear-Time Sequence Modeling with Selective State Spaces — ICLR 2024 傑出論文深度解析

在當前深度學習領域，Transformer 架構及其注意力機制已成為基礎模型（Foundation Models）的核心，引領了語言、音訊和基因組等多種序列資料的突破性發展。然而，Transformer 的計算複雜度為 O(N²)，面對超長序列時的效率瓶頸極為明顯，嚴重限制了其在實際應用中對於長距離依賴與海量資料的處理能力。針對此問題，近年來學術界與工業界陸續提出了多種改良方案，包括線性注意力（Linear Attention）、門控卷積（Gated Convolution）、循環神經網路（RNN）、以及結構化狀態空間模型（Structured State Space Models, SSMs）等，試圖在降低複雜度的同時保有良好的表現。

然而，這些方法雖然在效率上有提升，但在許多重要的序列模態（如自然語言處理）中往往無法超越 Transformer 的效果。Gu Dao 等人於 ICLR 2024 提出的 Mamba 則從根本性弱點出發，指出這些模型普遍缺乏「基於內容的動態推理」能力，這是 Transformer 注意力機制表現優異的關鍵原因之一。

一、研究背景與動機

Transformer 之所以威力強大，很大程度上在於其能根據「當前輸入內容」動態調整訊息傳遞權重，實現長距離依賴的高效「內容感知（content-based）推理」。反觀現有的線性或結構化狀態空間模型，多半採用靜態參數或固定的訊息流形式，缺乏隨序列位置和語義動態改變的能力，導致其在處理語言等離散模態時效果受限。

因此，作者提出重要假設：讓 SSM 的參數依賴於輸入本身，動態調整模型在序列長度方向上「選擇性地」傳播或遺忘訊息，將能彌補這項不足。他們將此機制融入新型狀態空間模型，發展出 Mamba 架構，並設計硬體友好的平行演算法，既克服了模型參數依賴輸入導致的卷積效率下降問題，也實現了全新的線性時間序列建模架構。

二、核心方法與創新

本論文的核心創新點在於「選擇性狀態空間模型（Selective State Spaces）」，關鍵架構特點如下：

參數動態化：傳統 SSM 使用不變參數矩陣，本論文改為讓 SSM 的參數成為輸入函數的動態依賴，使模型能根據當下 token 的語義調節狀態轉換和輸出權重。
選擇性記憶更新：透過動態參數控制，模型能選擇性地「保留」或「遺忘」過往資訊，這在語言等離散序列中，有助於強化內容相關性高的長距離訊息保留，類似 Transformer 的注意力焦點。
硬體感知的平行演算法：雖然動態參數使得經典卷積加速不再直觀可用，作者巧妙設計了一種在「循環模式下」的硬體高效平行算法，最大程度降低運算延遲，確保模型即使在極長序列下也能維持線性時間複雜度。
精簡的端到端架構：Mamba 压根不依赖 Transformer 的注意力模塊甚至 MLP 層，整體架構極為簡潔，專注於利用動態 SSM 直接建模序列，減少不必要的計算浪費與架構冗餘。

總結而言，Mamba 透過「選擇性狀態空間機制」實現了高效且具動態內容感知能力的序列處理，兼具效率與效能。

三、主要實驗結果

作者在多模態長序列建模任務上展示 Mamba 的卓越表現：

速度與擴展性：Mamba 在推理階段的吞吐量高於典型 Transformer 約 5 倍，且可線性擴展至百萬長度序列，展現了在長序列場景的實用性和優勢。
語言模型任務：在自然語言處理領域，Mamba-3B 版本模型在預訓練和下游應用上均超越了同尺寸 Transformer，並媲美甚至超出兩倍參數量的 Transformer，顯示其在高維語意建模方面的強力能力。
跨模態性能：除了語言，Mamba 在音訊和基因組序列分析中同樣達到當前最先進水準，印證其方法的泛用性和魯棒性。

這些成果充分說明，Dynamic Selective SSM 不僅解決了過去 SSMS 在內容感知能力上的短板，也在實務應用中獲得了顯著的效率與效能提升。

四、對 AI 領域的深遠影響

Mamba 的提出對序列建模尤其是長序列處理帶來幾大重要啟示：

重新定義線性序列模型的可能性：過去線性時間模型大多犧牲內容感知能力以換取效率，Mamba 開啟了將動態參數與狀態空間結合的創新思路，證明不必以犧牲效能為代價就能高效建模長序列。
挑戰 Transformer 的霸主地位：Mamba 在不依賴注意力機制的條件下，仍能在多個序列模態與任務中媲美甚至超越 Transformer，為未來基礎模型設計提供了嶄新範式。
促進硬體與演算法協同設計：論文設計的硬體感知平行演算法顯示未來 AI 模型效能提升不能單靠演算法本身，必須與底層硬體特性深度結合，推動跨領域協作。
拓展序列模型應用場景：Mamba 在億級長度的序列建模上展現強大實力，意味著許多過去難以處理的超長文本、基因序列研究、長時間音訊分析等應用將迎來突破性發展。

總結來說，Mamba 不僅是一個突破性的理論模型，更是一個兼顧實務效能與多模態適用性的先驅系統。隨著基礎模型不斷壯大與應用場景日趨複雜，這種兼顧效率與內容感知能力的設計思路，勢必會成為未來序列建模領域重要的技術藍圖與基石。

對具備基礎 AI 知識的工程師與研究生而言，深入理解 Mamba 的選擇性狀態空間模型及其硬體感知演算法，不僅能拓展對序列模型架構設計的視野，也為解決長序列計算困境提供了極具潛力的全新思路。

論文資訊
📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
👥 Gu, Dao
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2312.00752