行有餘力則以學文: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

2026年5月26日星期二

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

在自然語言處理（NLP）領域，Transformer 架構中的注意力機制（Attention）已成為推動大型語言模型（Large Language Models, LLMs）性能提升的關鍵技術。然而，隨著模型規模的擴大與訓練資料的激增，如何進一步提升注意力機制的有效性與穩定性，成為當前研究的重要課題。特別是「閘控機制」（Gating Mechanism）雖在早期如 LSTM、Highway Networks 等模型中廣泛運用，並在近年一些如線性注意力、狀態空間模型（State Space Models）等結構中嵌入，但對於閘控施加於 softmax 注意力的效果，目前學術界探討相對稀少。

針對此一研究空白，來自 Qiu 等人於 NeurIPS 2025 發表的論文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》提出系統性的深入研究，並獲選為年度最佳論文（Best Paper）。此文不僅在思想層面提出創新，也於實證結果上展現卓越表現，對 LLM 的架構優化提供全新視角。

研究背景與動機

Transformer 的核心為 Scaled Dot-Product Attention（SDPA），其利用查詢（Query）與鍵（Key）之間的相似度分佈來加權值（Value），形成特徵聚焦與資訊整合。然而，傳統的 softmax 注意力本質上是線性映射結合指數化運算，限制了非線性表達與輸出調節的彈性。此外，大規模模型訓練過程中經常面臨梯度不穩與「attention sink」問題──部分注意力頭陷入衰減或不活躍狀態，導致資訊流失與表現瓶頸。舊有研究雖有嘗試結合 gating，卻未針對其作用機制作全面對比與解析。

本論文主要動機在於全方位探索閘控機制結合 softmax 注意力的多種變體，瞭解其在 LLM 訓練穩定度、泛化能力及可擴展性上的影響，進而提出有效的結構改進方案。

核心方法與創新

研究團隊在 3.5 兆字元（3.5 trillion tokens）大規模語料上，針對超過 30 種基於 15 億參數混合專家模型（Mixture-of-Experts, MoE）以及 1.7 億參數稠密模型（Dense Model）的 gating 變體進行嚴格訓練與比較。其核心創新點為「於 Scaled Dot-Product Attention 後，針對每個注意力頭施加獨立的 sigmoid 閘控函數（head-specific sigmoid gate）」。

此方案看似簡單，卻帶來以下兩大關鍵貢獻：

引入非線性映射提升表達力
利用 sigmoid 閘控層對 SDPA 輸出執行非線性調節，突破原始 softmax 注意力輸出的線性限制。此一非線性操作強化了資訊的重組能力，使模型能更細緻地調整不同注意力頭的貢獻度。
引入查詢（Query）依賴的稀疏閘控機制
稀疏閘控使得 Attention 輸出可被有效篩選，僅保留關鍵性訊息。這種門控結構同時抑制不必要的資訊干擾，防止注意力模式陷入「attention sink」（頭部功能低落）現象，有效提升長篇文本的推理與外推能力。

此外，研究論文還對不同閘控位置、運算方式的變化進行細致分析，確立以上設計的優越性。實驗結果顯示，此簡單閘控模組不僅提升模型性能，還強化了訓練過程的數值穩定性，允許使用更大的學習率，優化收斂速度與泛化能力。

主要實驗結果

在大規模語言建模任務中，研究團隊展示了閘控注意力相較於基線 Transformer 模型具有顯著優勢：

所有經閘控強化的 MoE 模型，在多數指標（如 perplexity 和下游語言任務準確度）均明顯優於無閘控版本。
稠密模型亦展現類似提升，證明閘控機制的普適性。
訓練過程更加穩健，損失波動減少。
允許提升學習率至原先的幾倍而不損害穩定性，加速模型訓練。
在處理極長上下文輸入時，稀疏閘控有效避免注意力頭衰退，增強長距離資訊的擷取與利用。

研究團隊亦公開釋出所用代碼與模型檔，方便社群後續研發與驗證。

對 AI 領域的深遠影響

本論文從理論和實踐雙重層面，推翻了部分傳統對注意力機制的理解，揭示了閘控作為強力補充組件的價值。其提出的 head-specific gated attention 成為提升大型 Transformer 架構的重要技術之一。具體影響包括：

促進 LLM 架構新範式：透過引入非線性與稀疏閘控，提示設計者在大型模型構建中可更靈活融合簡單有效的結構改進，而非僅依賴模型尺寸擴展。
優化模型訓練流程：提高訓練穩定性與允許較大學習率，顯著降低大規模訓練成本與時間，有助加速 AI 研發迭代。
解決注意力瓶頸問題：有效緩解 attention sink，有助模型更好地處理長文本與複雜推理任務，促進自然語言理解與生成質量的提升。
推動跨領域應用：該技術具有普適性，未來可結合其他神經網路結構或應用領域（如計算機視覺、多模態學習），拓展 AI 模型的表達力與適應力。

總結而言，Qiu 等人這篇《Gated Attention for Large Language Models》不但填補了學術上對 gating 機制應用於 softmax 注意力研究的空缺，更開啟了 LLM 創新設計的新篇章。其方法簡潔、效果顯著，為日益膨脹的語言模型帶來更具效率與性能兼備的解決方案，具備成為未來主流架構改良基石的潛力。

對於中高階 AI 工程師與研究者而言，深入理解並掌握此論文所揭示的 gating 理論與實踐技巧，將有助於提升自身在大型模型設計與優化領域的競爭力。未來相關技術的發展與應用也將持續推動 AI 領域的邁進與革新。

論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708