2026年5月11日 星期一

On the Convergence of Adam and Beyond - Adam收斂性的探討與改進

在現代深度學習發展迅速的背景下,隨機優化方法扮演了不可或缺的角色。Adam 算法(Adaptive Moment Estimation)自2014年推出以來,憑藉其自動調整學習率及快速收斂的特性,迅速成為訓練深度神經網路的主流優化器。Adam 運用過去梯度的一階和二階動量估計,透過指數移動平均方法動態調整參數更新幅度,極大提升了優化效率與實用性。然而,隨著模型規模與應用領域極度擴展,Adam 以及類似基於自適應學習率的優化器如 RMSProp、Adadelta 等,逐漸暴露出某些理論與實務上的挑戰,尤其是在收斂性問題上。

本篇由 Reddi, Kale, Kumar 等人於2018年 ICLR 發表並榮獲最佳論文獎的經典論文《On the Convergence of Adam and Beyond》,深入探討了 Adam 優化算法在數學收斂性層面的缺陷與盲點,並提出改進方案,對後續優化器設計與深度學習穩定訓練具有深遠影響。

研究背景與動機

隨著深度學習模型規模不斷擴大,傳統的隨機梯度下降(SGD)及其變種在調參上面臨極大挑戰。Adam 因為可自動調節每個參數的學習率,能有效加速收斂且減少人工調參量,因此被廣泛採用。然而,實務上常觀察到 Adam 在某些問題中表現不如預期,有些場合甚至出現不穩定或不收斂的現象。

論文團隊注意到,過去對 Adam 收斂性的分析多基於不夠嚴密或略有假設限制的理論推導,未完整捕捉其內在運作的細節。而根本問題似乎與 Adam 採用的「指數移動平均」(exponential moving average,EMA)機制有關——由於較強調近期梯度,忽略了更長期的梯度資訊,導致參數更新方向反覆擺動,阻礙了收斂。

核心方法與技術創新

本論文首先以數學嚴謹的方式指出 Adam 在一個簡單凸優化問題上的不收斂實例,這在以往文獻中是首次明確展現。作者透過構造特定的凸函數和梯度序列,證明了 Adam 在經典參數設定下無法達到最優解。

更進一步,論文詳盡分析了 Adam 更新規則中使用的指數移動平均的本質缺陷。EMA 方法對於過去梯度的權重會快速衰減,導致「短期記憶」強化而「長期記憶」喪失,容易在梯度波動或稀疏環境中陷入振盪,不利收斂。

為了解決上述問題,論文提出一種名為 AMSGrad 的新演算法變種。AMSGrad 保留了 Adam 計算二階動量的機制,但在更新步驟中引入了「非遞減(non-increasing)」約束:使得梯度二階動量的校正項(v_t)不會小於之前時間點的最大值,即做了一種「長期記憶」的累積記錄,確保學習率的調節不會忽然變大或變小過快。

AMSGrad 的更新公式中,對於 v_t(第二動量的估計)不直接使用新值,而是使用所有歷史值中的最大值作為校正標準,由此避免了因梯度估計波動導致的過度放大學習率或錯誤方向更新。

主要實驗結果

論文團隊在多個典型任務中對 Adam、AMSGrad 及其他主流優化器進行實驗對比。結果顯示 AMSGrad 在理論保證收斂的同時,也能維持甚至提升在實務深度學習模型上的表現穩定性和收斂速度。尤其在一些易陷入局部振盪的問題上,AMSGrad 較 Adam 表現更為穩健。

具體而言,作者在圖像分類、語言模型及其他深度神經網路訓練任務中展示AMSGrad能夠避免 Adam 中常見的性能下降或震盪,有效提升最終準確率和損失函數的平滑收斂。此外,AMSGrad 的計算成本與 Adam 相近,便於實際應用。

對 AI 領域的深遠影響

本篇論文不僅從理論上首度糾正了 Adam 算法的收斂性問題,同時提出 AMSGrad 這一關鍵改進,架構了更加嚴謹且實用的自適應優化器框架。此工作廣泛影響了後續優化器的設計,促使研究者更加重視「動量估計的穩定性」及「梯度歷史資訊的利用」兩大因素。

在 AI 領域尤其是深度學習中,訓練效率與模型性能高度依賴優化器的效果。Adam 雖然十分流行,但其理論缺陷若不加以糾正,實務中可能導致模型表現不穩或過度依賴超參數調整。AMSGrad 的提出提供了一個理論與實務兼備的替代方案,促使後續優化方法如 AdaBound、Yogi 等紛紛在其基礎上進行拓展與改進。

此外,該論文促進了學界對「優化器收斂理論」的重視,不再單純依賴實驗現象,而是要求具備嚴格的數學證明。這降低了深度學習模型調試的難度,增加了訓練過程的穩定性與可解釋性。

總結來說,《On the Convergence of Adam and Beyond》不僅深入剖析了廣受歡迎的 Adam 優化器存在的基本缺陷,更提供了一條切實可行的改良路徑。此論文成為現代深度學習優化方法發展的里程碑,對推動穩健、有效的模型訓練技術具有不可磨滅的貢獻,值得每位從事 AI 優化研究與應用的工程師及研究者深入研讀。


論文資訊
📄 On the Convergence of Adam and Beyond
👥 Reddi, Kale, Kumar
🏆 ICLR 2018 · Best Paper
🔗 arxiv.org/abs/1904.09237

沒有留言:

張貼留言