行有餘力則以學文: On the Convergence of Adam and Beyond 深度解析

2026年3月27日星期五

On the Convergence of Adam and Beyond 深度解析

在深度學習大規模應用的浪潮中，優化算法扮演著舉足輕重的角色。Adam（Adaptive Moment Estimation）優化器自2015年被提出後，以其自適應調整學習率的能力，迅速成為訓練深度神經網路的主流方法之一。它結合了Momentum與RMSProp的優點，運用歷史梯度的一階矩與二階矩的指數移動平均值來更新參數。儘管Adam在多數實務中表現優異，然而在某些情況下，研究者們卻發現它可能無法保證收斂，甚至可能不收斂至優化問題的最優解。這種矛盾引發了優化理論與實務應用之間的博弈，也促使 Reddi 等學者在 ICLR 2018 發表了題為 “On the Convergence of Adam and Beyond” 的經典論文，並榮獲最佳論文獎，以深入揭示Adam背後潛在的收斂問題及改進方案。

研究背景與動機

深度學習優化器主要分為基於梯度下降的變種方法，Adam屬其中熱門一員。Adam通過計算梯度的指數加權平均（即所謂的一階矩估計）與平方梯度的指數加權平均（二階矩估計）來動態調整每個參數的學習率。此方法不僅在許多神經網路架構上實現了訓練穩定化，且極大地改善了訓練速度與效果。然而，先前對Adam收斂性的理論分析存在不足，尤其是在凸優化問題中，已被觀察到Adam有可能不收斂到全局最優解。

研究動機便是深度探討這些經典基於動量與自適應學習率的優化器—特別是Adam—為何在理論層面出現收斂失效，並尋找可靠的修改途徑，以期既保有Adam的優勢，同時獲得嚴謹的收斂保證。

核心方法與創新

Reddi 等人的研究首先指出，Adam收斂失敗的根本原因在於「指數移動平均」（Exponential Moving Average, EMA）策略使用在梯度平方之上會帶來數學性質上的問題。具體地，EMA會在不同時間點對梯度平方的權重給予迅速遞減的影響，造成某些參數更新比例持續震盪甚至增加，導致優化步驟不穩定。

為了嚴謹證明此結論，作者設計了簡單但明確的凸優化問題範例，示範Adam在該例子中無法收斂至最優解。這不僅推翻了當時對Adam收斂性的盲目信任，也指出了前人錯誤的收斂分析邏輯。

基於上述洞察，作者提出了解決方案：將原本只聚焦近期梯度的指數移動平均改為具備「長期記憶」的方式。具體而言，新算法稱為Amsgrad，其核心在於在更新步驟中使用梯度平方的最大值（max）而非單純EMA，從而避免了梯度方差估計的不斷下降問題，保證了更新步驟的單調性及穩定性。

此修改最大的創新在於重新設計了二階矩的估計策略，使得優化過程具備良好的數值穩定性和收斂特性。作者透過嚴謹理論證明了Amsgrad在凸函數下必定收斂，並且在實驗中展示了其在深度神經網路訓練中的優越表現。

主要實驗結果

為了驗證Amsgrad的優越性，論文在多種任務與模型架構上進行了實驗，包括圖像分類及語言模型訓練。實驗結果展現：

在凸優化問題中，Adam原始版本無法收斂，Amsgrad成功收斂至全局最優解。
在深度網路訓練時，Amsgrad不僅解決了Adam可能出現的震盪状況，有時還能取得更優的泛化表現與更快的收斂速度。
結論指出，這種基於最大值策略的二階矩計算可穩定優化軌跡，有效減少學習率的不合理跳動。

此外，論文亦在理論分析上採用嚴謹證明，闡述各種超參數如何影響收斂性，且進一步延伸思考其他自適應優化算法，如RMSProp與Adadelta，也可能遭遇類似問題並提供改善方法。

對 AI 領域的深遠影響

此篇論文不僅是Adam系列優化算法理論進展上的里程碑，也是整個深度學習優化領域的重要分水嶺。主要影響可歸納如下：

理論與實務的橋樑搭建：過去Adam被廣泛使用，卻缺少嚴謹的理論保證。此論文指出其潛在的收斂問題，為後續優化算法研究奠定了堅實基礎，促使研究者重新審視現有優化器的穩定性及收斂性。
推動優化算法創新：Amsgrad的提出引導業界與學術界投入設計更為健壯的自適應優化方法，例如後續衍生的類Adam優化器，這些算法在各類神經網路訓練任務中廣受推崇。
提升深度學習訓練穩定性：透過更穩定的優化步驟，降低震盪與不收斂風險，有助於訓練更深層、更複雜的模型，推動AI技術在語音辨識、計算機視覺、自然語言處理等領域的突破。
促使優化理論發展：本研究強調優化過程中記憶機制與動態調整的重要性，啟發後來研究探討更多關於動態學習率調整、二階信息利用及自適應機制的理論框架。

簡言之，Reddi 等人於2018年ICLR發表的這篇《On the Convergence of Adam and Beyond》不僅解決了困擾深度學習社群多時的Adam收斂困境，更開創了優化演算法設計的新方向，為深度學習模型訓練過程的理論安全性與實務效率提供了堅實保障，成為自適應優化器領域不可繞過的經典巨作。

論文資訊
📄 On the Convergence of Adam and Beyond
👥 Reddi, Kale, Kumar
🏆 ICLR 2018 · Best Paper
🔗 arxiv.org/abs/1904.09237