常用資訊速查

2026年4月11日 星期六

On the Convergence of Adam and Beyond

研究背景與動機

在深度學習的優化領域,Adam(Adaptive Moment Estimation)優化器自2014年問世以來,因其加速收斂與自動調整學習率的特性,成為訓練深度神經網絡的主流方法之一。Adam結合了Momentum與RMSProp的優點,透過對一階梯度與二階梯度平方的指數移動平均來調整梯度更新幅度。然而,隨著研究與應用的深入,越來越多實驗觀察發現,Adam在某些簡單的凸優化問題,甚至是非凸深度神經網絡訓練過程中,竟可能無法保證收斂至理想的最優解或穩定的臨界點。

這樣的問題引發了對Adam理論基礎的反思與挑戰。尤其在面對大型輸出空間、稀疏梯度或非凸優化挑戰時,Adam及其衍生版本如RMSProp、Adadelta、Nadam常被質疑其收斂性。Reddi等人(2018年在ICLR發表的《On the Convergence of Adam and Beyond》)即針對此問題,進行了嚴謹的理論分析與改進,揭露了導致Adam失效的根本原因,並提出更具收斂保障的新方法。

核心方法與創新

論文首先以數學嚴謹方式,分析Adam不收斂的根源。核心聚焦於Adam使用的「二階梯度平方的指數移動平均(Exponential Moving Average, EMA)」在某些情況下引發的偏差問題。這種EMA設計造成梯度修正過度依賴最近的梯度信息,缺乏對過去梯度的長期記憶,導致步長更新不穩定,甚至形成震盪,無法持續往全局最優解更新。

論文中作者以一個設計精巧且簡單的凸優化問題做為反例,成功展示了Adam無法收斂的典型案例,具體指出此前理論分析未能完全涵蓋的缺陷。針對此問題,研究團隊提出了修正方法:採用「非指數加權平均」或強化歷史梯度的影響,使優化過程具備長期記憶(long-term memory)。

在此基礎上,作者設計了名為 Amsgrad 的變體。Amsgrad的關鍵創新在於,取代Adam的動態學習率中使用指數加權的二階動量,改為保留歷史中所有「最大」的二階動量值,這種方式有效防止了學習率因二階動量的劇烈波動而產生的不穩定行為。理論證明,Amsgrad在一般凸函數下能保證梯度下降序列的收斂,彌補了Adam理論上的缺失。

主要實驗結果

為了驗證提出方法的有效性,作者在多種典型的深度學習任務中進行了實驗,包括圖像分類與語言模型訓練。實驗結果顯示,Amsgrad不僅克服了Adam不收斂的問題,而且在收斂速率與最終準確度上均取得了與Adam相當甚至更優的表現。特別是在具有稀疏梯度特性的場景與大型輸出空間任務中,Amsgrad展現出更穩定的訓練過程與更佳的泛化能力。

此外,藉由對比分析,多項衍生優化器(如RMSProp、Adadelta等)也在一同的理論框架下被重新審視,證實其收斂性可因類似的改進而提升,強化了該研究的普適性與應用價值。

對 AI 領域的深遠影響

本論文在優化算法理論與實踐兩方面具有突破意義。首先,它挑戰了當時深度學習界對Adam等自適應梯度方法普遍的收斂信任度,揭露了潛藏的理論盲點,促使整個社群重新審視優化方法的數學保證。

其次,Amsgrad的提出不僅提升了優化器的理論基礎,更提供了可直接套用於實務的改良方案,兼顧算法效率與穩定性,因而被廣泛引用與追隨。這推動了後續優化器設計趨向注重長期記憶機制與梯度修正策略的創新,促進了更加健壯且泛用的深度學習訓練方法發展。

綜觀全局,這篇論文的核心貢獻在於用嚴謹的理論分析突破了「看似理所當然」的算法設計,並成功指出改進方向;這種科學態度與創新思路,成為後續AI優化研究的重要典範。對於工程師與研究生而言,深入理解本論文不僅能掌握 Adam 類方法的本質問題與解決之道,還能激發思考如何從理論視角出發,設計更優秀的AI訓練算法,是深耕機器學習優化領域的必讀經典。


論文資訊
📄 On the Convergence of Adam and Beyond
👥 Reddi, Kale, Kumar
🏆 ICLR 2018 · Best Paper
🔗 arxiv.org/abs/1904.09237

沒有留言:

張貼留言