行有餘力則以學文: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

2026年6月29日星期一

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

近年來，大型語言模型（Large Language Models, LLMs）透過自注意力機制（self-attention）推動自然語言理解和生成技術持續演進。其中，softmax注意力（softmax attention）結合Scaled Dot-Product Attention (SDPA) 作為核心運算單元，已成為Transformer架構成功的基石之一。然而，隨著模型規模與訓練資料的劇增，如何提升注意力機制的表達能力、訓練穩定性及推論效率，仍為AI研究領域的重要挑戰。

本文榮獲NeurIPS 2025年最佳論文獎，作者Qiu等人聚焦於「門控機制（gating）」對大型語言模型中softmax注意力的影響。門控（gate）機制起源於RNN中的LSTM、Highway Networks，近期也在state space models、線性注意力等架構中被廣泛採用，但先前文獻對於門控導入softmax注意力的系統性探討仍相當有限。作者首度深入研究各類採用門控的softmax注意力變種，並藉由大規模實驗揭示門控設計如何帶來關鍵效益。

研究背景與動機

傳統softmax注意力將查詢（query）和鍵（key）的點積做scaled normalization，允許模型捕捉字詞間的長距離相依關係。但本質上這是一組低階線性映射加softmax非線性轉換，缺乏更複雜的非線性調節機制。另一方面，門控透過類似「訊號開關」的方式調節信號流，帶來更多參數化彈性，在RNN及近年線性注意力中證明其穩定訓練及加強表達性的價值。

因此，本文動機是深入挖掘軟性門控機制如何在大規模Transformer架構的Softmax注意力模組中產生正面效應，尤其解析「非線性作用」與「稀疏性」對性能提升的貢獻，並解決長文上下文擴展時所遭遇的注意力機制瓶頸，例如「attention sink」問題。

核心方法與創新

本論文核心貢獻在於結合head-specific sigmoid gate到Scaled Dot-Product Attention之後作為後置調制，門控分數依賴於query，這意味著每個注意力頭的輸出會根據query內容被動態放大或抑制。具體而言，即在傳統計算流後加入一層門控函數：

Attention_out = Attention_out * sigmoid(W_gate * query + b_gate)

此設計透過sigmoid引入額外非線性，並鼓勵稀疏激活，讓注意力權重不再是單純softmax決定，而是在保留全模型資訊流的同時獲得更靈活的訊號控制。

研究團隊針對15B參數規模的Mixture-of-Experts（MoE）模型和1.7B密集參數模型，使用包含3.5兆字元級別的龐大語料，系統性比較超過30種門控軟注意力變體。結果清晰表明，頭部特定門控後置法在多個任務指標均有穩定和明顯提升。

更進一步，論文解析了門控扮演的兩大核心角色：

非線性引入於低秩映射：傳統softmax注意力近似線性映射後加softmax，門控能提出額外非線性層次，強化表達力，讓模型更能捕捉複雜語意關聯。
基於query的稀疏門控分數：利用gate進行稀疏化調節，抑制不重要的訊號通路，促進訊號專注於具代表性的上下文，提升學習效率與模型推理質量。

此外，該稀疏門控還成功緩解了著名的「attention sink」問題，即在長上下文推理時注意力權重容易集中在局部或無效部分，導致遠距依賴捕捉消失。透過動態門控調整，模型能更好地擴展長程記憶與理解能力。

主要實驗結果

透過嚴謹的大規模訓練與評估，作者報告了多項關鍵實驗發現：

門控softmax注意力結構相較於基線無門控模型，在自然語言理解、文本生成多任務指標均有顯著提升，並且模型訓練更為穩定。
對比不同門控位置實驗，頭部後置門控即在SDPA後添加sigmoid gate是效果最優，且支持更高的學習率，加速收斂。
門控機制提升模型規模擴展能力，15B MoE模型加門控後在更龐大語料上有更好的橫向性能擴展，展現良好的可伸縮性。
長文本推理任務中，由門控帶來的稀疏機制顯著提高了模型對長距離上下文的捕捉能力，有效減少注意力集聚在短距離的「sink」現象。
論文同時公開了相關程式碼及多種模型權重，利於學術界及產業界後續使用與擴展研究。

對 AI 領域的深遠影響

本論文的貢獻不僅是為Transformer架構注入一種簡潔有效的門控設計，還從底層理論視角和大規模實驗維度，系統性地揭示了非線性與稀疏性在軟性注意力機制中的重要性。核心發現對多個層面產生深遠啟示：

模型結構創新：傳統softmax注意力被視為固定機制，作者展示了其內部尚有巨大可優化空間，門控設計提供了一條簡潔可行的路徑，啟發更多研究者嘗試其它非線性調制。
訓練與推理的穩定性提升：在超大規模模型訓練常見梯度爆炸、不穩定的情形下，引入門控改善了模型魯棒性，並可容忍更激進的學習率，節省訓練成本與時間。
長文上下文處理突破：解決「attention sink」問題是長文本建模的重要挑戰，本文稀疏門控機制的成功，我們預期將加速長距離依賴學習技術的廣泛應用，推動多模態、知識問答及文檔理解等領域發展。
工程實用價值：門控模組設計簡單計算量低，易於集成在現有大型語言模型架構，有助產業快速採用並改進產品性能。

總體而言，Qiu等人的工作以兼顧理論深度與實驗規模的方式，為大型語言模型中的注意力機制優化提供了新範式。此篇Best Paper不單是技術突破，更是透過精細設計與嚴密驗證，展示了如何將傳統機制逐步調校至極致的典範，將引領後續大型模型架構創新與性能攀升的新浪潮。

論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708

行有餘力則以學文

2026年6月29日星期一

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年6月29日 星期一

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年6月29日星期一