在當前深度學習領域,特別是自然語言處理與其他序列資料建模任務上,Transformer 架構幾乎成為了基石,帶動了諸如 GPT、BERT 及其他大型基礎模型的快速發展。然而,Transformer 的核心注意力機制因為計算時間與記憶體使用量呈二次方(quadratic)級數成長,使得它在處理極長序列時存在嚴重的效率瓶頸。面對這項挑戰,學界發展了多種子二次方計算複雜度的模型,包括線性注意力(linear attention)、門控卷積(gated convolution)、循環神經網路(RNN)以及結構化狀態空間模型(Structured State Space Models, SSMs)。
儘管如此,這些方法在某些重要模態(如語言序列)上的表現,仍未能穩定超越傳統 Transformer。Gu Dao 於 ICLR 2024 論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中明確點出,這些模型的一個主要弱點在於「無法有效執行基於內容的推理(content-based reasoning)」。簡言之,傳統 SSM 等模型因為固定的狀態空間參數設計,無法動態依據序列中的當前令牌(token)選擇性地決定信息的傳遞或遺忘,這限制了模型在處理具離散特性的序列資料(如文字)時的表現。
核心方法與創新點
在突破上述限制方面,本論文提出三大關鍵改進:
- 參數動態調整:「選擇性狀態空間」機制(Selective State Spaces)
作者創新地讓狀態空間模型的核心參數變成序列令牌的函數,也就是根據每個輸入位置的內容,動態調整參數。這使得模型可以更靈活地選擇在序列長度維度上對信息是「保留(propagate)」還是「遺忘(forget)」,進而強化了模型對離散序列的建模能力,尤其針對語言類任務。 - 硬體優化的平行序列計算策略
由於引入了參數的動態依賴,傳統基於卷積的高效計算路徑不再適用。論文中巧妙設計了一種專為現代硬體(如 GPU)優化的平行演算法,即便在保持循環結構的情況下,依然能實現高度的運算加速,極大提升推理速度。 - 全新簡化網絡架構Mamba
論文進一步將所提出的選擇性SSM模組整合到一個端到端且結構極簡的網路中。此網路完全不採用 Transformer 的注意力機制,甚至省略了多層感知機(MLP)區塊,僅依靠選擇性狀態空間模組建構序列模型,並因此被命名為「Mamba」。這樣的結構使得模型在推理效率與可擴展性上具有顯著優勢。
主要實驗與結果
在大量模態下,包括語言、音訊與基因序列等不同類型的序列資料集測試中,Mamba 都展現出優異性能。尤其在語言模型領域,Mamba-3B 模型(約30億參數)不僅擊敗了同等大小的 Transformer,甚至與約60億參數的 Transformer 持平,顯示其在模型效率與效果間取得極佳平衡。
此外,Mamba 在處理超長序列方面展現強大的線性時間擴展能力,模型能夠有效運作於百萬尺度的序列長度,這在傳統 Transformer 架構中幾乎不可想像。推理速度上,Mamba 在多項任務中達到約 Transformer 5 倍的吞吐量,充分展現其適用於實務應用的潛力。
對 AI 領域的深遠影響
Mamba 的誕生,挑戰了 Transformer 作為序列建模核心架構的壟斷地位,特別是在處理長序列及計算資源有限情景下提供了全新的解決方案。其「參數動態調整」的創新設計,為結構化狀態空間模型注入了新的活力,使其能在面對複雜、離散且變化多端的序列數據時仍有效執行內容導向的推理,彌補過去模型在這方面的缺陷。
更重要的是,Mamba 展現出高度的硬體友好性,透過優化的平行運算策略大幅降低推理延遲,對於基礎模型大規模部署及服務化有直接且實質的促進作用。其輕量與高效的架構將有機會廣泛應用於語音識別、基因序列分析及即時語言處理等多元場域。
最後,該論文突破傳統固化框架的思維,以更靈活且動態的方式整合序列內容資訊,提供未來序列模型設計的重要參考指引。Mamba 不僅是學術上重要的理論進展,也對業界在追求更快、更省成本而不犧牲性能的模型訓練及推理,帶來切實可行的創新思路。
總結
總結來說,《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》這篇 ICLR 2024 傑出論文,以其獨特的「選擇性狀態空間」設計,結合硬體優化的並行計算,打造出了兼具高效與強大序列建模能力的全新架構——Mamba。它不僅突破了 Transformer 在長序列計算上的瓶頸,更重新定義了狀態空間模型在自然語言和其他序列領域的應用潛力。對於從事序列模型研究與開發的工程師與研究生而言,Mamba 提供了一條兼顧理論創新與實務價值的前沿道路,值得深入研讀與借鑒。
論文資訊
📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
👥 Gu, Dao
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2312.00752

沒有留言:
張貼留言