2026年6月29日 星期一

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

近年來,大型語言模型(Large Language Models, LLMs)透過自注意力機制(self-attention)推動自然語言理解和生成技術持續演進。其中,softmax注意力(softmax attention)結合Scaled Dot-Product Attention (SDPA) 作為核心運算單元,已成為Transformer架構成功的基石之一。然而,隨著模型規模與訓練資料的劇增,如何提升注意力機制的表達能力、訓練穩定性及推論效率,仍為AI研究領域的重要挑戰。

本文榮獲NeurIPS 2025年最佳論文獎,作者Qiu等人聚焦於「門控機制(gating)」對大型語言模型中softmax注意力的影響。門控(gate)機制起源於RNN中的LSTM、Highway Networks,近期也在state space models、線性注意力等架構中被廣泛採用,但先前文獻對於門控導入softmax注意力的系統性探討仍相當有限。作者首度深入研究各類採用門控的softmax注意力變種,並藉由大規模實驗揭示門控設計如何帶來關鍵效益。

研究背景與動機

傳統softmax注意力將查詢(query)和鍵(key)的點積做scaled normalization,允許模型捕捉字詞間的長距離相依關係。但本質上這是一組低階線性映射加softmax非線性轉換,缺乏更複雜的非線性調節機制。另一方面,門控透過類似「訊號開關」的方式調節信號流,帶來更多參數化彈性,在RNN及近年線性注意力中證明其穩定訓練及加強表達性的價值。

因此,本文動機是深入挖掘軟性門控機制如何在大規模Transformer架構的Softmax注意力模組中產生正面效應,尤其解析「非線性作用」與「稀疏性」對性能提升的貢獻,並解決長文上下文擴展時所遭遇的注意力機制瓶頸,例如「attention sink」問題。

核心方法與創新

本論文核心貢獻在於結合head-specific sigmoid gate到Scaled Dot-Product Attention之後作為後置調制,門控分數依賴於query,這意味著每個注意力頭的輸出會根據query內容被動態放大或抑制。具體而言,即在傳統計算流後加入一層門控函數:

Attention_out = Attention_out * sigmoid(W_gate * query + b_gate)

此設計透過sigmoid引入額外非線性,並鼓勵稀疏激活,讓注意力權重不再是單純softmax決定,而是在保留全模型資訊流的同時獲得更靈活的訊號控制。

研究團隊針對15B參數規模的Mixture-of-Experts(MoE)模型和1.7B密集參數模型,使用包含3.5兆字元級別的龐大語料,系統性比較超過30種門控軟注意力變體。結果清晰表明,頭部特定門控後置法在多個任務指標均有穩定和明顯提升。

更進一步,論文解析了門控扮演的兩大核心角色:

  1. 非線性引入於低秩映射:傳統softmax注意力近似線性映射後加softmax,門控能提出額外非線性層次,強化表達力,讓模型更能捕捉複雜語意關聯。
  2. 基於query的稀疏門控分數:利用gate進行稀疏化調節,抑制不重要的訊號通路,促進訊號專注於具代表性的上下文,提升學習效率與模型推理質量。

此外,該稀疏門控還成功緩解了著名的「attention sink」問題,即在長上下文推理時注意力權重容易集中在局部或無效部分,導致遠距依賴捕捉消失。透過動態門控調整,模型能更好地擴展長程記憶與理解能力。

主要實驗結果

透過嚴謹的大規模訓練與評估,作者報告了多項關鍵實驗發現:

  • 門控softmax注意力結構相較於基線無門控模型,在自然語言理解、文本生成多任務指標均有顯著提升,並且模型訓練更為穩定。
  • 對比不同門控位置實驗,頭部後置門控即在SDPA後添加sigmoid gate是效果最優,且支持更高的學習率,加速收斂。
  • 門控機制提升模型規模擴展能力,15B MoE模型加門控後在更龐大語料上有更好的橫向性能擴展,展現良好的可伸縮性。
  • 長文本推理任務中,由門控帶來的稀疏機制顯著提高了模型對長距離上下文的捕捉能力,有效減少注意力集聚在短距離的「sink」現象。
  • 論文同時公開了相關程式碼及多種模型權重,利於學術界及產業界後續使用與擴展研究。

對 AI 領域的深遠影響

本論文的貢獻不僅是為Transformer架構注入一種簡潔有效的門控設計,還從底層理論視角和大規模實驗維度,系統性地揭示了非線性與稀疏性在軟性注意力機制中的重要性。核心發現對多個層面產生深遠啟示:

  1. 模型結構創新:傳統softmax注意力被視為固定機制,作者展示了其內部尚有巨大可優化空間,門控設計提供了一條簡潔可行的路徑,啟發更多研究者嘗試其它非線性調制。
  2. 訓練與推理的穩定性提升:在超大規模模型訓練常見梯度爆炸、不穩定的情形下,引入門控改善了模型魯棒性,並可容忍更激進的學習率,節省訓練成本與時間。
  3. 長文上下文處理突破:解決「attention sink」問題是長文本建模的重要挑戰,本文稀疏門控機制的成功,我們預期將加速長距離依賴學習技術的廣泛應用,推動多模態、知識問答及文檔理解等領域發展。
  4. 工程實用價值:門控模組設計簡單計算量低,易於集成在現有大型語言模型架構,有助產業快速採用並改進產品性能。

總體而言,Qiu等人的工作以兼顧理論深度與實驗規模的方式,為大型語言模型中的注意力機制優化提供了新範式。此篇Best Paper不單是技術突破,更是透過精細設計與嚴密驗證,展示了如何將傳統機制逐步調校至極致的典範,將引領後續大型模型架構創新與性能攀升的新浪潮。


論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708

沒有留言:

張貼留言