行有餘力則以學文: Mamba: Linear-Time Sequence Modeling with Selective State Spaces

2026年5月25日星期一

Mamba: Linear-Time Sequence Modeling with Selective State Spaces — ICLR 2024 傑出論文深度解說

在當前深度學習領域，特別是自然語言處理與其他序列資料建模任務上，Transformer 架構幾乎成為了基石，帶動了諸如 GPT、BERT 及其他大型基礎模型的快速發展。然而，Transformer 的核心注意力機制因為計算時間與記憶體使用量呈二次方（quadratic）級數成長，使得它在處理極長序列時存在嚴重的效率瓶頸。面對這項挑戰，學界發展了多種子二次方計算複雜度的模型，包括線性注意力（linear attention）、門控卷積（gated convolution）、循環神經網路（RNN）以及結構化狀態空間模型（Structured State Space Models, SSMs）。

儘管如此，這些方法在某些重要模態（如語言序列）上的表現，仍未能穩定超越傳統 Transformer。Gu Dao 於 ICLR 2024 論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中明確點出，這些模型的一個主要弱點在於「無法有效執行基於內容的推理（content-based reasoning）」。簡言之，傳統 SSM 等模型因為固定的狀態空間參數設計，無法動態依據序列中的當前令牌（token）選擇性地決定信息的傳遞或遺忘，這限制了模型在處理具離散特性的序列資料（如文字）時的表現。

核心方法與創新點

在突破上述限制方面，本論文提出三大關鍵改進：

參數動態調整：「選擇性狀態空間」機制（Selective State Spaces）
作者創新地讓狀態空間模型的核心參數變成序列令牌的函數，也就是根據每個輸入位置的內容，動態調整參數。這使得模型可以更靈活地選擇在序列長度維度上對信息是「保留（propagate）」還是「遺忘（forget）」，進而強化了模型對離散序列的建模能力，尤其針對語言類任務。
硬體優化的平行序列計算策略
由於引入了參數的動態依賴，傳統基於卷積的高效計算路徑不再適用。論文中巧妙設計了一種專為現代硬體（如 GPU）優化的平行演算法，即便在保持循環結構的情況下，依然能實現高度的運算加速，極大提升推理速度。
全新簡化網絡架構Mamba
論文進一步將所提出的選擇性SSM模組整合到一個端到端且結構極簡的網路中。此網路完全不採用 Transformer 的注意力機制，甚至省略了多層感知機（MLP）區塊，僅依靠選擇性狀態空間模組建構序列模型，並因此被命名為「Mamba」。這樣的結構使得模型在推理效率與可擴展性上具有顯著優勢。

主要實驗與結果

在大量模態下，包括語言、音訊與基因序列等不同類型的序列資料集測試中，Mamba 都展現出優異性能。尤其在語言模型領域，Mamba-3B 模型（約30億參數）不僅擊敗了同等大小的 Transformer，甚至與約60億參數的 Transformer 持平，顯示其在模型效率與效果間取得極佳平衡。

此外，Mamba 在處理超長序列方面展現強大的線性時間擴展能力，模型能夠有效運作於百萬尺度的序列長度，這在傳統 Transformer 架構中幾乎不可想像。推理速度上，Mamba 在多項任務中達到約 Transformer 5 倍的吞吐量，充分展現其適用於實務應用的潛力。

對 AI 領域的深遠影響

Mamba 的誕生，挑戰了 Transformer 作為序列建模核心架構的壟斷地位，特別是在處理長序列及計算資源有限情景下提供了全新的解決方案。其「參數動態調整」的創新設計，為結構化狀態空間模型注入了新的活力，使其能在面對複雜、離散且變化多端的序列數據時仍有效執行內容導向的推理，彌補過去模型在這方面的缺陷。

更重要的是，Mamba 展現出高度的硬體友好性，透過優化的平行運算策略大幅降低推理延遲，對於基礎模型大規模部署及服務化有直接且實質的促進作用。其輕量與高效的架構將有機會廣泛應用於語音識別、基因序列分析及即時語言處理等多元場域。

最後，該論文突破傳統固化框架的思維，以更靈活且動態的方式整合序列內容資訊，提供未來序列模型設計的重要參考指引。Mamba 不僅是學術上重要的理論進展，也對業界在追求更快、更省成本而不犧牲性能的模型訓練及推理，帶來切實可行的創新思路。

總結

總結來說，《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》這篇 ICLR 2024 傑出論文，以其獨特的「選擇性狀態空間」設計，結合硬體優化的並行計算，打造出了兼具高效與強大序列建模能力的全新架構——Mamba。它不僅突破了 Transformer 在長序列計算上的瓶頸，更重新定義了狀態空間模型在自然語言和其他序列領域的應用潛力。對於從事序列模型研究與開發的工程師與研究生而言，Mamba 提供了一條兼顧理論創新與實務價值的前沿道路，值得深入研讀與借鑒。

論文資訊
📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
👥 Gu, Dao
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2312.00752