行有餘力則以學文: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度簡介

2026年4月13日星期一

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度簡介

在自然語言處理（NLP）與大型語言模型（LLM）持續爆炸性成長的浪潮中，跨足如何提升模型性能與穩定性的研究成為核心課題之一。注意力機制（Attention），尤其是Transformer中的Softmax注意力機制，已成為當前最成功的架構基石。與此同時，門控機制（Gating）在序列模型領域中歷史悠久，從早期的LSTM、Highway Networks到近年的線性注意力（Linear Attention）及狀態空間模型（State Space Models）都廣泛應用，但現有文獻對於門控在標準Softmax注意力機制中所能帶來的獨特效用，卻少有系統性且深入的探討。Qiu等人在2025年NeurIPS榮獲最佳論文的《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》一文，即是針對此一核心問題，提出富有洞見的解決方案與理論分析。

研究背景與動機

Transformer架構自2017年問世以來，以“Scaled Dot-Product Attention”（SDPA）為核心，成為語言模型發展的主流。然而，隨著模型規模擴大，如何維持穩定訓練並且在長序列上下文中有效擷取關鍵資訊，仍是實務與理論上的大挑戰。尤其「attention sink」問題—指注意力權重過度集中於少數幾個位置，導致上下文訊息利用率降低—被視為性能提升的一大障礙。

另一方面，儘管門控結構在循環神經網路（RNN）中以非線性策略成功調節訊息流通，但在Transformer注意力中的具體應用與影響尚未完全清楚。鑒於此，本論文聚焦於結合門控機制與Softmax注意力，探索其對模型訓練穩定性、性能提升及長上下文擴展能力的影響。

核心方法與創新

本研究的核心貢獻在於提出一種簡潔而高效的「頭專屬Sigmoid門控機制」（head-specific sigmoid gating），此門控直接作用於經過Scaled Dot-Product Attention後的輸出向量上。具體而言，模型在每個注意力頭（attention head）結束後，額外插入一組可學習的Sigmoid門控參數，以非線性方式調節該頭輸出，形成稀疏且輸入依賴的動態調節機制。

此外，作者在15B參數的混合專家模型（Mixture-of-Experts, MoE）及1.7B參數的密集模型（dense model）中，總計測試超過30種門控設計變體，並且於超過3.5兆(token)的大規模語料中訓練與驗證。通過嚴謹的消融實驗與效能比較，該研究確認非線性門控可貢獻於：

非線性映射的引入：在Softmax注意力本質為低秩映射的基礎上，引入門控機制賦予額外的非線性能力，使注意力機制表徵能力更為豐富。
查詢依賴的稀疏門控得分：針對每個查詢向量，門控機制動態調節不同注意力頭的激活程度，有效產生稀疏性，提升資訊提純效果。

更重要的是，這種稀疏門控策略能有效緩解長序列上的“attention sink”問題，改善長距離依賴的建立，使模型具備更優秀的長上下文推理能力。同時，也帶來訓練穩定性的提升，允許使用更大的學習率並且在規模擴張時表現更加自然良好。

主要實驗結果

作者在大規模資料集上進行全面實驗，模型包括15B參數的MoE和1.7B密集模型兩大類型。核心發現如下：

性能提升：在標準語言建模任務中，加入門控後模型在困難指標（如困惑度Perplexity）上持續降低，提升顯著且一致。
訓練穩定性：加入門控使訓練過程更為平滑，模型能承受更大學習率且避免梯度爆炸或消失問題。
對長上下文的推理能力增強：在長序列推理的測試中，門控機制有助於防止注意力與表示陷入局部有限區域，提高遠距離信息融合能力。
稀疏性可解釋性：門控機制透過稀疏激活，動態選擇有意義的注意力頭，具有良好的解釋效果和實務可用性。

實驗還詳細比較了不同門控插入位置、門控函數類型及結構變異，堅定支持將頭專屬Sigmoid門控加於SDPA後的設計最具實用價值。

對 AI 領域的深遠影響

本論文不僅從理論上闡明門控機制為Softmax注意力注入非線性與稀疏性的根本價值，還從實驗上系統驗證了其在大規模語言模型訓練中提升效果的可行性，為Transformer架構的演化帶來新的方向。

具體來說：此研究成果推動了Transformer模型的設計哲學從純粹線性矩陣運算轉向混合非線性與稀疏激活策略，這種思維的改變可能催生更多新穎且高效的注意力變體，有助於解決當前大型模型在擴展性、計算資源消耗和長序列依賴方面的瓶頸。

此外，研究中釋出的程式碼與模型開源，更降低了學術界與產業界復現與基於門控注意力的進一步創新的門檻，預計會推動整體語言模型生態系統的快速進步。最重要的是，對長上下文擴展能力的提升，對應於多模態、跨領域整合、複雜推理和人機交互等重大應用場景，將帶來實質性的突破。

綜合來看，Qiu等人的《Gated Attention for Large Language Models》不僅補足了Transformer注意力機制中門控效用的理論空白，也提供了一條可操作的設計路徑，啟發未來模型架構的多元演化。對於人工智慧領域研究者、工程師乃至產業實踐者而言，此篇佳作典範意義重大，可望成為未來大型語言模型設計的參考標竿。

論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708