2026年6月23日 星期二

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度解析

在近年來的自然語言處理(NLP)與大型語言模型(Large Language Models, LLM)研究中,「注意力機制」(Attention Mechanism)成為了核心技術之一。Transformer 架構的成功,很大程度上得益於其內建的多頭自注意力(Multi-head Self-Attention),而如何有效提升這部分的表達能力和運算效率,成為許多研究的焦點。本文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》發表於頂尖會議 NeurIPS 2025,榮獲最佳論文獎(Best Paper),即是針對大型語言模型中注意力機制的關鍵改進進行系統性探討,帶來了非常值得深究的創新。

研究背景與動機

由於 Transformer 的核心是 Scaled Dot-Product Attention(SDPA),其採用點積算子與 softmax 函數計算注意力權重,雖然表現優異,但也存在諸多限制。首先,softmax 函數本質上是一個線性映射的加權求和,這限制了模型捕捉複雜非線性關係的能力;其次,隨著序列長度增加,注意力機制面臨演算瓶頸與訊息消失(attention sink)問題,影響長程記憶與上下文擴展能力。

此外,「門控機制」(Gating Mechanism)自 LSTM、Highway Networks 以來廣泛被應用於深度神經網絡中以增加非線性表達和控制信息流動,近期在像狀態空間模型(SSM)與線性注意力等領域也被採用,但此前文獻較少針對門控與軟性注意力結合的深層次機理及其具體效益做系統研究。

核心方法與創新

本論文的核心貢獻在於提出一種簡單卻非常有效的新式「門控注意力」機制,即在 Scaled Dot-Product Attention 計算完成之後,針對每個注意力頭施加一個獨立的 Sigmoid 門控機制。具體而言,各注意力頭輸出的向量會被乘以一個依查詢(query)資訊動態生成的稀疏門控係數,透過非線性的 Sigmoid 函數調節門控強度。

作者深入分析了多種門控位置(如在 attention score 上、value 上或整體輸出後),並在 15B 參數規模的 Mixture-of-Experts (MoE) 模型及 1.7B 參數的 Dense 模型上,針對 3.5 兆個訓練 token 進行大規模實驗。結果明確指出,將門控放置於 SDPA 輸出後的「頭專屬門控」(head-specific gating)效果最佳。此門控機制帶來兩大本質優勢:

  1. 非線性強化:傳統 softmax attention 本質是低秩線性映射,門控機制引入了非線性的調節,讓模型可表達更複雜的特徵關係,彌補了純粹線性投影的侷限。
  2. 動態稀疏激活:門控函數輸出依查詢向量動態調整,部分頭的注意力可被部分關閉(sparse gating),這不僅節能減算,也緩解了研究中常見的“attention sink”現象,讓模型在長上下文推理上更具彈性與效能。

主要實驗結果

全面的實驗設計涵蓋超過30種變體,系統比較門控位置、門控計算方式及其與模型規模的互動關係。實驗關鍵發現包括:

  • 性能提升明顯:14B至15B規模 MoE 模型,和 Gated-Head Attention 結合後,在多個語言任務標準評測如 Language Model Perplexity、Zero-shot、Few-shot 任務中均有顯著提昇,且訓練過程更穩定,不易陷入局部極小值。
  • 可容忍更大學習率:門控機制使得模型能在訓練中使用更激進的優化超參數,縮短訓練時間且減少資源消耗。
  • 解決 Attention Sink 問題:稀疏門控啟用動態路徑選擇,使得注意力權重不會「匯聚」至單一頭部或少數幾個頭,改善了長序列依賴學習的能力。
  • 長上下文推理能力提升:在測試模型擴展至超長序列時,Gated Attention 表現出更佳的正向外推能力,有助於長文檔理解與跨句子推斷。

作者同時釋出了相關程式碼與模型,促進社群重現與延伸研究,顯示良好的研究開放態度與實際價值。

對 AI 領域的深遠影響

本論文不僅在技術層面帶來一套簡潔高效的門控注意力架構,更深刻揭示了非線性調節與稀疏動態控制在大型語言模型中的關鍵角色。隨著模型參數與資料規模激增,如何在龐大運算與存儲成本之間找到良好平衡,並同時保持學習效率與推理能力,是產業與學術界共同面臨的挑戰。

門控機制的成功實施,為未來 LLM 架構設計提供了方向:細粒度、可調節且稀疏的注意力激活,不僅能降低計算複雜度,也提升模型的穩定性和表達力。這對推動更大規模、更長上下文的語言模型具有重要意義。更廣泛地,本研究方法論也有望促進多個 AI 子領域的跨界融合,例如結合狀態空間模型、稀疏激勵學習,以及結構化神經網絡設計等,形成更精密的深度模型架構。

總結來說,Qiu 等人於 NeurIPS 2025 所提出的 Gated Attention 為大型語言模型的注意力機制注入了新的活力。透過簡單且有效的頭專屬門控調節,不僅提升了模型效能與訓練穩定性,更解決了困擾注意力模型已久的關鍵問題——attention sink,讓模型在面對超長文本時有更強的理解與推理能力。對於想在 LLM 領域進行深入開發的研究者與工程師而言,這套機制提供了切實可行且經過嚴格驗證的改進路徑,是近年來最重要的神經注意力改進之一。


論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708

沒有留言:

張貼留言