2026年5月26日 星期二

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

在自然語言處理(NLP)領域,Transformer 架構中的注意力機制(Attention)已成為推動大型語言模型(Large Language Models, LLMs)性能提升的關鍵技術。然而,隨著模型規模的擴大與訓練資料的激增,如何進一步提升注意力機制的有效性與穩定性,成為當前研究的重要課題。特別是「閘控機制」(Gating Mechanism)雖在早期如 LSTM、Highway Networks 等模型中廣泛運用,並在近年一些如線性注意力、狀態空間模型(State Space Models)等結構中嵌入,但對於閘控施加於 softmax 注意力的效果,目前學術界探討相對稀少。

針對此一研究空白,來自 Qiu 等人於 NeurIPS 2025 發表的論文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》提出系統性的深入研究,並獲選為年度最佳論文(Best Paper)。此文不僅在思想層面提出創新,也於實證結果上展現卓越表現,對 LLM 的架構優化提供全新視角。

研究背景與動機

Transformer 的核心為 Scaled Dot-Product Attention(SDPA),其利用查詢(Query)與鍵(Key)之間的相似度分佈來加權值(Value),形成特徵聚焦與資訊整合。然而,傳統的 softmax 注意力本質上是線性映射結合指數化運算,限制了非線性表達與輸出調節的彈性。此外,大規模模型訓練過程中經常面臨梯度不穩與「attention sink」問題──部分注意力頭陷入衰減或不活躍狀態,導致資訊流失與表現瓶頸。舊有研究雖有嘗試結合 gating,卻未針對其作用機制作全面對比與解析。

本論文主要動機在於全方位探索閘控機制結合 softmax 注意力的多種變體,瞭解其在 LLM 訓練穩定度、泛化能力及可擴展性上的影響,進而提出有效的結構改進方案。

核心方法與創新

研究團隊在 3.5 兆字元(3.5 trillion tokens)大規模語料上,針對超過 30 種基於 15 億參數混合專家模型(Mixture-of-Experts, MoE)以及 1.7 億參數稠密模型(Dense Model)的 gating 變體進行嚴格訓練與比較。其核心創新點為「於 Scaled Dot-Product Attention 後,針對每個注意力頭施加獨立的 sigmoid 閘控函數(head-specific sigmoid gate)」。

此方案看似簡單,卻帶來以下兩大關鍵貢獻:

  1. 引入非線性映射提升表達力
    利用 sigmoid 閘控層對 SDPA 輸出執行非線性調節,突破原始 softmax 注意力輸出的線性限制。此一非線性操作強化了資訊的重組能力,使模型能更細緻地調整不同注意力頭的貢獻度。
  2. 引入查詢(Query)依賴的稀疏閘控機制
    稀疏閘控使得 Attention 輸出可被有效篩選,僅保留關鍵性訊息。這種門控結構同時抑制不必要的資訊干擾,防止注意力模式陷入「attention sink」(頭部功能低落)現象,有效提升長篇文本的推理與外推能力。

此外,研究論文還對不同閘控位置、運算方式的變化進行細致分析,確立以上設計的優越性。實驗結果顯示,此簡單閘控模組不僅提升模型性能,還強化了訓練過程的數值穩定性,允許使用更大的學習率,優化收斂速度與泛化能力。

主要實驗結果

在大規模語言建模任務中,研究團隊展示了閘控注意力相較於基線 Transformer 模型具有顯著優勢:

  • 所有經閘控強化的 MoE 模型,在多數指標(如 perplexity 和下游語言任務準確度)均明顯優於無閘控版本。
  • 稠密模型亦展現類似提升,證明閘控機制的普適性。
  • 訓練過程更加穩健,損失波動減少。
  • 允許提升學習率至原先的幾倍而不損害穩定性,加速模型訓練。
  • 在處理極長上下文輸入時,稀疏閘控有效避免注意力頭衰退,增強長距離資訊的擷取與利用。

研究團隊亦公開釋出所用代碼與模型檔,方便社群後續研發與驗證。

對 AI 領域的深遠影響

本論文從理論和實踐雙重層面,推翻了部分傳統對注意力機制的理解,揭示了閘控作為強力補充組件的價值。其提出的 head-specific gated attention 成為提升大型 Transformer 架構的重要技術之一。具體影響包括:

  • 促進 LLM 架構新範式:透過引入非線性與稀疏閘控,提示設計者在大型模型構建中可更靈活融合簡單有效的結構改進,而非僅依賴模型尺寸擴展。
  • 優化模型訓練流程:提高訓練穩定性與允許較大學習率,顯著降低大規模訓練成本與時間,有助加速 AI 研發迭代。
  • 解決注意力瓶頸問題:有效緩解 attention sink,有助模型更好地處理長文本與複雜推理任務,促進自然語言理解與生成質量的提升。
  • 推動跨領域應用:該技術具有普適性,未來可結合其他神經網路結構或應用領域(如計算機視覺、多模態學習),拓展 AI 模型的表達力與適應力。

總結而言,Qiu 等人這篇《Gated Attention for Large Language Models》不但填補了學術上對 gating 機制應用於 softmax 注意力研究的空缺,更開啟了 LLM 創新設計的新篇章。其方法簡潔、效果顯著,為日益膨脹的語言模型帶來更具效率與性能兼備的解決方案,具備成為未來主流架構改良基石的潛力。

對於中高階 AI 工程師與研究者而言,深入理解並掌握此論文所揭示的 gating 理論與實踐技巧,將有助於提升自身在大型模型設計與優化領域的競爭力。未來相關技術的發展與應用也將持續推動 AI 領域的邁進與革新。


論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708

沒有留言:

張貼留言