行有餘力則以學文: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度解讀

2026年4月7日星期二

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度解讀

隨著大型語言模型（Large Language Models, LLMs）在自然語言處理與生成領域取得突破，注意力機制（Attention Mechanism）成為構建這些模型的核心元件。特別是軟體點乘注意力（Scaled Dot-Product Attention, SDPA）為 Transformer 架構提供了強大且靈活的表達能力。儘管注意力機制中「門控（gating）」技術已為許多神經網路如 LSTM、Highway Networks 所廣泛應用，然而現有文獻對於門控如何具體影響軟體注意力本身的效能，尤其在大規模模型中的作用機制，尚缺乏系統化且深入的探討。

此篇發表於 NeurIPS 2025 並摘下最佳論文獎的論文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》，由 Qiu 等人提出，正是針對上述研究空白進行全面性挖掘。該工作基於橫跨 30 個變體的 15 億參數混合專家模型（Mixture-of-Experts, MoE）與 17 億參數的密集模型，在規模達 3.5 兆字元的大型語料下訓練，系統性評估門控結構在軟體注意力中的效益。

研究背景與動機

軟體點乘注意力透過計算 Query、Key 之間的相似度來分配權重，選擇性聚焦輸入序列中相關資訊，已成為 Transformer 維持長距依賴能力的關鍵。自 Transformer 推出後，為了突破其高計算量及固定注意力形態的限制，研究者嘗試結合門控機制，如線性注意力、狀態空間模型等。然而這些工作多重點放在模型架構創新或效率提升，卻少有系統性分析不同形式門控對軟體注意力本身非線性和稀疏化影響。

本論文基於此重要動機，系統性檢驗門控納入後的軟體注意力表現，並致力找出最簡單而有效的調節方法，解決注意力機制中已知的訓練不穩定、擴展性差和“attention sink”（注意力匯流）問題。

核心方法與創新

作者提出在典型的 SDPA 計算完成後，針對每個注意力頭（head）應用「獨立的 sigmoid 門控機制」，作為對注意力權重的非線性調節。這一頭特異性 sigmoidal gate，不僅提供了對注意力分布的啟發式約束，更透過稀疏化機制促使部分注意力輸出被顯著抑制。具體而言，該門控按照 Query 依賴的稀疏分數對 SDPA 輸出進行乘法調節，使得注意力矩陣在低秩映射上呈現非線性交互特性。

該方法之所以重要，有兩大創新點：

非線性注入：傳統軟體注意力本質是線性加權過程，限制了表達能力。引入 sigmoid 門控增加非線性變換，使得模型能以更複雜的方式解讀與組合注意力訊息，達到性能提升。
稀疏性控制：透過 Query 依賴的稀疏 gating，避免所有注意力頭無差異地分散注意力，進而抑制所謂的“attention sink”問題——即注意力過度集中於單一或少數位置，導致訊息流失與泛化性能下降。

此外，作者還詳細探討不同 gating 位置與計算變體，確認該頭特定 sigmoid gate 是簡單且最有效的門控策略，兼顧計算效率與性能提升，易於整合至現有模型架構中。

主要實驗結果

在龐大且多樣的實驗設計下，研究團隊對比超過 30 種 gating-attention 架構的 15B MoE 與 1.7B 密集模型。關鍵實驗結果包括：

顯著提升性能：在包括語言建模、長文本理解和生成等多任務上，加入 gated attention 後均展現更佳效能，超越無門控的baseline。
穩定性提升：訓練過程中加門控的模型容忍更大的學習率，不易出現梯度爆炸或消失情形，提高整體訓練效率與收斂速度。
擴展性強：隨著模型與訓練資料規模放大，gate-augmented attention 的性能優勢更加明顯，顯示良好擴散與泛化能力。
緩解 Attention Sink：稀疏 gating 避免了注意力過度集中於少量元素的現象，提升了模型在長上下文環境中的推理與 extrapolation 能力。

作者並開放了相關程式碼與預訓練模型，為後續學界與業界研究提供豐富資源。

對 AI 領域的深遠影響

本論文從結構性改良出發，提出一種簡潔卻極具影響力的注意力門控策略，為大型語言模型架構提供了新的視角與方法論。它不僅深化了我們對門控機制在軟體注意力中如何作用的理解，更為解決模型穩定性、訓練效率與長距依賴問題提供了實踐路徑。

由於大型模型在多數尖端 NLP 任務及跨模態學習扮演中流砥柱角色，研究成果將推動下一代 Transformer 類架構的設計，特別是在模型擴展與推理可解釋性方面具備潛在價值。此外，透過改善注意力稀疏分布與非線性擴充，本論文促成更有效的資訊選擇機制，對降低計算資源消耗以及提升推理能力都有明顯助益。

總體而言，《Gated Attention for Large Language Models》不僅是對 Transformer 注意力核心元件的深入改革，更揭示了「結構性非線性」與「稀疏性調節」的強大協同效應，這對提升語言模型可用性、擴展性及訓練穩定性具有革命性意義，預期成為未來大型模型持續優化的重要基石。

論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708