行有餘力則以學文: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度解析

2026年5月20日星期三

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度解析

在當前自然語言處理（NLP）領域，大型語言模型（Large Language Models, LLMs）已成為驅動生成與理解任務性能突破的核心力量。其中，基於Transformer架構的自注意力機制（Self-Attention）更是關鍵。然而，隨著模型規模與訓練數據的擴大，如何在保持計算效率與穩定性的同時，進一步提升模型性能成為研究熱點。Qiu 等人於 NeurIPS 2025 榮獲最佳論文的《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》即針對該領域，提出一種簡潔且高效的「門控注意力機制（Gated Attention）」，其對大型語言模型的訓練穩定性、性能提升以及長序列上下文的理解帶來革命性影響。

研究背景與動機

傳統自注意力模型如 Transformer 使用的 Scaled Dot-Product Attention（SDPA）計算方式，當中透過對查詢（Query）與鍵（Key）向量的點積，再經 Softmax 正規化後，作用於值（Value）向量以獲得注意力輸出。此機制雖強大，但其本質仍是線性映射，可能限制了非線性特徵的捕捉能力。此外，模型訓練過程中學習率受限，容易出現梯度不穩定、收斂困難等現象，且長序列情況下還可能出現「attention sink」（注意力匯聚效應），使部分注意力頭僅專注於少數位置，導致上下文信息利用率下降。

過去門控結構（Gating Mechanisms）在深度學習中已有廣泛應用，例如 LSTM 的輸入門、遺忘門以及 Highway Networks 的門控連接，這些設計可引入非線性及稀疏激活，提高模型表現與穩定性。然而，關於門控方案在「軟注意力」特別是大型語言模型內部「注意力頭」層面如何發揮作用，文獻中探討甚少且不夠系統化。

核心方法與創新

本論文透過大規模的實驗對比，聚焦於在 SDPA 後引入「頭專屬(sigmoid)門控」的簡單修改。具體而言，作者在每個注意力頭輸出上施加一組可學習的 sigmoid 函數門控權重，使得該頭的注意力輸出動態受查詢向量調控情況而改變，進而形成「query-dependent sparse gating scores」。數據表明，這種設計同時具備兩大關鍵特性：

非線性增強：由於傳統attention計算基本上是線性的權重映射，門控層加入後，額外引入非線性映射，提供模型表達更多複雜的變換能力。
稀疏選擇性調制：門控分數因 query 而異，具備稀疏特性，能有效過濾不必要或重複的注意力頭輸出，減少「注意力沉溺(attention sink)」問題。

此外，作者比較門控放置的不同位置（如注意力矩陣前後），檢驗不同設計變體的效能，發現 SDPA 後添加門控為最優方案。在技術上，該方法能兼容超大型混合專家模型（Mixture-of-Experts, MoE）及稠密模型，並支持更高的學習率，使訓練更穩健、收斂更快。

主要實驗結果

實驗部分，作者訓練了規模達 15 億參數的 MoE 模型以及 1.7 億參數的稠密模型，均在龐大約 3.5 兆字元的文本資料集上進行訓練。透過超過 30 種變體實驗，結果顯著顯示：

引入頭專屬 sigmoid 門控後，模型在多種下游任務的表現均有一致性提升，包含語言理解和生成任務。
在長文本上下文的推理與延展能力上，門控機制減緩了「attention sink」現象，使注意力頭分布更均勻，提升模型對長序列的捕捉與推理能力。
門控設計允許模型容忍更大的學習率，帶來更快和更穩定的訓練過程。
門控後的模型展現更好的擴展性，隨著模型參數增大，性能提升更加顯著。

值得一提的是，作者也公開了源碼與模型權重，促進後續社群進行驗證拓展與實際應用。

對 AI 領域的深遠影響

本論文的貢獻不僅在於提出一個具體且高效的改進方案，更重要是它系統性揭示了門控機制在大型語言模型自注意力中的核心價值：

融合非線性與稀疏性的設計新典範：過去自注意力大多視為線性加權機制，本文突破此藩籬，將非線性門控與有效的稀疏調控引入，為未來注意力架構創新開闢新方向。
實踐層面提升大型模型訓練穩定性：門控機制令模型能在更大學習率下穩定訓練，降低調參成本，加速LLMs向更大規模發展的步伐。
解決長序列表示瓶頸問題：Attention Sink 現象長久以來困擾著長文本建模，此研究透過稀疏門控緩解該問題，大幅增強長文本推理與生成能力，極具實用價值。
促進門控機制與注意力模型的結合研究：本文系統比較多種門控位置與計算變體，為後續在不同模型與任務中應用及擴展提供寶貴實證依據和設計指引。

綜上，Qiu 等人提出的 Gate Attention 機制不僅是對 Transformer 自注意力架構的深化升級，更象徵了AI模型設計由經典線性權重向動態非線性稀疏激活邁進的重要里程碑。這為大型語言模型在性能、訓練效率及長文本理解方面帶來全新突破，也將推動各類深度學習應用從語言擴展至視覺、跨模態等多元場景。

對具備基礎AI知識的工程師與研究生來說，理解並掌握此門控設計方法，將有助於設計更強健且高效的自注意力模組，開發下一代高性能大型模型，促使研究者與業界更好地解決實務瓶頸，推進整體AI技術前沿。

論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708