2026年6月11日 星期四

On the Convergence of Adam and Beyond

研究背景與動機

隨著深度學習的蓬勃發展,隨機優化演算法成為訓練神經網路不可或缺的重要工具。其中,像是 RMSProp、Adam、Adadelta、Nadam 等基於自適應學習率調整機制的優化器,因其收斂速度快且超參數相對容易調整,已成為實務與研究上的熱門選擇。特別是 Adam 演算法憑藉其透過指數移動平均來估計一階與二階梯度資訊,自動調節每個參數的步長,得到了廣泛應用。

然而,在某些應用場景中,如具有極大輸出空間的問題或非凸優化問題,實務驗證卻顯示這些演算法並不保證收斂到理想的解。特別是 Adam 被發現存在理論收斂性上的空缺,甚至在簡單凸優化問題中會無法收斂到最優解。該現象激起研究者探討 Adam 機制背後的數學本質,以尋求使這些自適應優化器在理論與實務上都更穩健的解決方案。

核心方法與創新

本論文由 Reddi、Kale 與 Kumar 三位作者於 ICLR 2018 提出,聚焦在檢視及改進 Adam 優化器的收斂性問題。作者首先對目前 Adam 和類似優化器的數學特性進行深入分析,揭露其關鍵缺陷:Adam 使用的指數加權移動平均(Exponential Moving Average, EMA)在梯度二階動量估計過程中,會造成「長期記憶」缺失,導致優化過程中無法適當調整步長,從而產生收斂失敗的現象。

為了具體呈現問題,作者設計了一個簡單的凸優化例子,展示 Adam 在此案例中無法收斂到全局最優解,挑戰了當時對 Adam 收斂性的既有理論。作者進一步指出,先前針對 Adam 的收斂分析存在著嚴重的理論漏洞,並詳細解釋問題出在哪裡。

基於上述洞察,論文提出了一種新的改進演算法——AMSGrad。AMSGrad 在計算二階梯度的移動平均時,改採用「不下降的最大值」策略,也就是保留歷史中最大的二階動量估計值,這樣使得算法具備更「長期記憶」的特質,避免 EMA 隨時間遞減帶來的問題。

AMSGrad 從理論上證明能夠克服 Adam 的收斂缺陷,保證在凸問題下算法必定收斂到最優解。同時,AMSGrad 也在實務上維持優良的收斂速度與效果,甚至在某些情況超越原始的 Adam 表現。

主要實驗結果

作者運用多組實驗評估 AMSGrad 與原始 Adam 在不同凸與非凸優化任務上的表現。實驗結果顯示:

  • 在凸優化問題中,Adam 曾出現的無法收斂問題在 AMSGrad 明顯消失,AMSGrad 收斂更穩定、結果更接近理論最優。
  • 在非凸問題上,AMSGrad 依舊保持穩定且有效的收斂,且在多個深度學習任務中取得與甚至優於 Adam 的測試準確度和收斂速度。
  • 相較於其他變種(如 RMSProp),AMSGrad 的更新策略在維持自適應優化效果的同時,提供更明確的收斂理論保證。

總體而言,實驗證實 AMSGrad 不僅解決了 Adam 系列優化器的理論短板,也在實務中展現出穩定且優秀的性能。

對 AI 領域的深遠影響

Adam 由於其優異的性能,已躍升為深度學習訓練的主力優化方法之一,但長久以來理論上的不足與收斂風險始終令研究者與工程師心存疑慮。本論文的重要貢獻在於:

  1. 理論層面:首次嚴謹揭示 Adam 演算法收斂失敗的根本原因,並對先前流行的理論分析給予修正與糾正,促進整個優化理論體系的完善。
  2. 方法論突破:提出 AMSGrad 這一簡單而有效的改進策略,實現理論與實際效果的連結,為自適應優化演算法的研發指引了新方向。
  3. 實務應用層面:該研究提高了深度學習訓練過程的穩定性及可預期性,降低模型訓練過程中的不確定性,對大規模和複雜模型訓練尤為重要。

此論文不僅使得 Adam 相關優化演算法在理論上更具說服力,更因其提出的 AMSGrad 方案被廣泛採納,成為後續研究和工業應用中優化器設計的重要基石。更深遠地來說,它推動 AI 社群對優化器收斂性的重新省思,激勵研究者審慎評估演算法理論保證,從而加速更穩健、效率更高的優化方法問世。

總結而言,On the Convergence of Adam and Beyond 不僅是優化理論上的里程碑,也為 AI 系統訓練的可靠性建立了重要基礎,是 AI 頂會中值得典範學習的最佳論文。


論文資訊
📄 On the Convergence of Adam and Beyond
👥 Reddi, Kale, Kumar
🏆 ICLR 2018 · Best Paper
🔗 arxiv.org/abs/1904.09237

沒有留言:

張貼留言