2026年3月30日 星期一

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

隨著大型語言模型(LLMs)在自然語言處理領域的迅速發展,注意力機制(Attention)成為模型成功的關鍵組件之一。特別是基於Transformer架構的Scaled Dot-Product Attention(SDPA)機制,已經成為現今主流模型不可或缺的計算核心。然而,儘管注意力機制本身具備高度表達能力,現有研究常忽略了「門控機制」(Gating Mechanism)在注意力中的潛在效用,尤其是其對模型非線性行為、稀疏性以及訓練穩定性的影響。Qiu等人於NeurIPS 2025發表的論文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》即深入探討這一問題,並透過大規模實驗提出具有突破性的發現,獲得年度最佳論文殊榮。

研究背景與動機

門控機制自早期深度學習模型如LSTM和Highway Networks就被運用來調節資訊流動,提升模型表達能力與訓練穩定性。近年來,狀態空間模型(State Space Models)、線性注意力(Linear Attention)以至於軟體最大注意力(Softmax Attention)也相繼引入門控模組,但現有文獻少有系統性分析門控對軟體最大注意力的具體影響。尤其是大規模語言模型中,如何有效引入並利用門控來提升性能,以及其對訓練動態如穩定性、學習率容忍度與長時依賴建模能力的影響尚屬未解之謎。

本論文動機即在於彌補此一認知空白,系統性地探討和比較多種基於門控的注意力變體,尋找出既能提升性能又能優化模型訓練與推理特性的最佳設計。同時,作者也將目標擺在防止一種稱為「attention sink」的現象——注意力分數過度集中導致模型失去長距離資訊的能力,這在長文本處理與上下文擴展上尤為重要。

核心方法與創新

本研究的核心創新在於提出並實現一種簡潔卻高度有效的門控機制:於Scaled Dot-Product Attention(SDPA)之後,針對每個注意力頭(Attention Head)應用獨立的Sigmoid門控函數,調節該頭輸出的強度。該門控設計允許模型在保持原有注意力運算結構的同時,賦予其非線性變換能力及輸出稀疏性,兩者對性能提升均有顯著貢獻。

具體而言,作者針對15億參數等級的Mixture-of-Experts(MoE)模型及1.7億參數的稠密模型進行超過30種門控變體的大規模對照實驗,涵蓋不同門控插入位置、結構設計及稀疏策略。實驗發現:

  • 非線性引入:在SDPA後添加門控,能在低秩映射結果上施加非線性,突破純線性運算限制,強化模型表現力。
  • 稀疏調制:門控產生的query相關稀疏分數,有效選擇性放大或抑制各頭輸出,達成資訊篩選,提升效率與泛化能力。
  • 降低attention sink:稀疏門控緩解過度集中注意力分布,促進長距離依賴的捕捉,顯著提升長文本生成與理解表現。
  • 訓練穩定性與放大尺度:門控改造使得模型訓練更耐受較大學習率且收斂過程更平滑,支援更大規模模型和長上下文推理。

此外,研究團隊公開了相關程式碼與訓練模型,為社群提供可重複驗證與應用的基礎,鞏固研究影響力。

主要實驗結果

實驗在涵蓋3.5兆字元超大規模語料庫上進行,測試包含語言建模困難指標、下游任務效果及長文本推理任務。主要實驗發現如下:

  • 相較於未加門控的基線,Gated Attention在標準語言建模任務中平均提升1-3%的PPL(Perplexity),對於通用下游任務如閱讀理解和語義匹配,提升幅度更為明顯。
  • 加入頭特異性Sigmoid門控後,模型訓練允許使用高達20%-30%的更大學習率,在保持或提升性能情況下縮短了訓練時間。
  • 在長上下文情境中,稀疏門控版本明顯擊敗無門控模型,尤其在超過2048個token以上的長文本生成及理解任務中表現卓越。
  • 注意力分布分析表明,門控機制有效防止注意力過度集中於少數位置的attention sink現象,提升了注意力權重的多樣性與動態調節能力。

對AI領域的深遠影響

本論文的貢獻跨越理論與實務兩大層面,對未來大型語言模型架構設計具有重要啟示:

  1. 重新認識門控機制的價值:以往門控多被視為輔助策略,該研究系統且大規模地證明,在注意力核心環節中精巧設計的門控能帶來顯著性能與訓練優化,未來模型設計可更多聚焦於結合門控與注意力的非線性稀疏調控。
  2. 強化長上下文能力的關鍵途徑:長文本理解與生成一直是大語言模型的挑戰,本文提出的稀疏門控有效解決了注意力集中導致的推理瓶頸,為超長上下文處理開辟新方向。
  3. 提升模型訓練效率與穩定性:能容忍更大學習率的訓練特性,意味著大模型訓練周期縮短和計算資源節省,可促進實際應用部署。
  4. 促進後續研究與產業應用:作者公開的開源程式碼與模型提供了堅實基礎,利於學界與工業界快速採用與擴展,推動相關技術落地並引發更多後續創新。

綜上所述,《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》透過嚴謹的實驗和深刻的理論分析,成功揭示並驗證了門控機制在大型語言模型注意力中的核心效用與創新應用,為目前及未來的語言理解與生成模型提供了關鍵而務實的設計參考,堪稱AI領域中一項重要的里程碑。


論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708

沒有留言:

張貼留言