行有餘力則以學文: On the Convergence of Adam and Beyond

在深度學習迅猛發展的過程中，優化演算法扮演著舉足輕重的角色。隨機梯度下降（SGD）及其變種為訓練神經網路提供了重要的基礎，而Adam演算法因其自適應調整學習率的特性，成為目前最受歡迎的優化方法之一。然而，儘管Adam在實務中表現卓越，過去幾年亦有不少觀察指出其在某些情況下無法保證收斂至最佳解，甚至在凸優化設定下亦可能失敗。本文《On the Convergence of Adam and Beyond》由Reddi、Kale與Kumar於ICLR 2018發表，獲得年度最佳論文殊榮，針對Adam存在的收斂性問題進行了深入的理論剖析與演算法改良，對優化演算法的理解與應用產生了重大影響。

研究背景與動機

Adam與其類似變種（如RMSProp、Adadelta、Nadam）均採用指數加權移動平均（Exponential Moving Average, EMA）來估計各維度梯度二次平方的動態變化，並根據估算結果調整學習率。此設計使得Adam能自動適應各參數梯度的尺度，並且在訓練深層神經網路時展現出優越的效率和穩定性。

然而，從理論角度來看，Adam的收斂保證卻不夠充分。傳統優化理論往往要求梯度估計器在無偏或某些漸近條件下收斂，然而Adam所採用的EMA策略引入的偏差和依賴性，導致其無法確保無限迭代下的最優收斂。研究者注意到，在某些簡單的凸問題上，Adam甚至會發散或停留在非最優解，這挑戰了當時Adam在學術界廣泛被接受的收斂假設。

基於此，本文的核心動機在於：（1）找出Adam導致收斂失敗的根本原因；（2）從理論層面嚴格分析Adam的演算法本質與偏誤；（3）設計新的變種演算法以修正收斂問題，並提升實務上的效能。

核心方法與創新

研究團隊首先提出了一個簡單且具代表性的凸優化問題，明確展示Adam未能收斂的具體範例。透過嚴謹的數學證明，他們指出收斂性缺陷的關鍵在於Adam中使用的權重更新策略：EMA的指數衰減使得演算法只重視近期梯度的資訊，而「遺忘」了更長遠的歷史梯度訊息，這種長期記憶的缺失造成步伐調整上的系統性偏差——尤其是在梯度頻繁震盪或問題條件變化較快時，Adam可能無法得到正確的可行步伐方向。

針對這個問題，作者提出了一個統一的分析框架來做嚴謹的收斂分析，並在此基礎上設計了改良版本，稱為“AMSGrad”。AMSGrad的核心改變在於保障了梯度平方均值的單調性，即採用較大的歷史最大平方梯度估計作為修正，避免了EMA在某些時刻過度衰減歷史資訊的缺點。此變更使得AMSGrad理論上擁有嚴謹的收斂保證，即使在非凸目標函數上亦能在一定條件下趨近累積誤差最小化。

除此之外，本文的分析深刻指出了先前Adam理論分析中不夠嚴謹的部分，例如忽略了動態學習率調整帶來的非平穩性影響，或對EMA的統計特性估計過於樂觀等問題。這些洞見不僅糾正了學界的認知盲點，也成為後續多種自適應優化方法改良的重要理論基礎。

主要實驗結果

為了驗證AMSGrad在理論與實務上的改進效果，作者在多種測試場景進行大規模實驗，涵蓋簡單凸函數優化、非凸深度神經網路訓練，以及圖像分類等典型深度學習任務。

在人工構造的凸優化問題中，AMSGrad成功收斂至全局最優解，而原始Adam雖表現良好卻無法保證穩定收斂。
在深度學習任務中，例如著名的CIFAR及ImageNet資料集使用卷積神經網路訓練，AMSGrad在收斂速度與最終測試準確率上均與Adam相當甚至略有提升，尤其在高變動或梯度震盪較劇烈的階段，AMSGrad表現更為穩健。
此外，實驗結果還顯示AMSGrad對超參數（如初始學習率）不那麼敏感，進一步降低了調參難度。

對 AI 領域的深遠影響

此篇論文突破了當時優化領域存在的盲點，推動了我們對主流自適應優化方法的收斂性理解向前邁進了一大步。透過嚴謹的理論分析與簡潔明確的演算法設計，Reddi等人幫助社群認識到：

優化演算法的理論基礎不可忽視：即便某演算法在實務上表現優良，若缺乏嚴謹收斂證明，背後潛藏的問題可能在特定條件下造成嚴重失效。
動態調整策略需謹慎設計：EMA等指數衰減機制看似簡便有效，但其“忘卻”過往梯度的特性易導致更新不穩定，需用更穩定的長期記憶替代。
新一代自適應優化方法的發展方向：AMSGrad啟發了後續一連串基於理論保障與穩健更新原則的優化器設計，如AdaBound、RAdam等，使得優化演算法在效率與穩定間取得更佳平衡。
加速深度學習模型訓練與泛化：透過對優化步伐及學習率動態調整的深入了解，有助於深化對深度模型訓練動力學的見解，促進更高效且穩定的模型收斂。

綜合而言，這篇論文不僅針對Adam的收斂問題提供了關鍵解答，更在理論與實驗層面成功建立了一套新標準，推動了機器學習優化方法的研究與應用。對於中高階研究生與工程師而言，理解本文的核心貢獻和分析邏輯，有助於提升對現代深度學習優化策略的洞察，並在未來設計新的演算法時避免類似陷阱。

論文資訊
📄 On the Convergence of Adam and Beyond
👥 Reddi, Kale, Kumar
🏆 ICLR 2018 · Best Paper
🔗 arxiv.org/abs/1904.09237

行有餘力則以學文

常用資訊速查

2026年5月30日星期六

On the Convergence of Adam and Beyond — 深度探討與改進

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

2026年5月30日 星期六

On the Convergence of Adam and Beyond — 深度探討與改進

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

2026年5月30日星期六