2026年4月17日 星期五

On the Convergence of Adam and Beyond

在深度學習領域中,隨機優化演算法扮演著舉足輕重的角色,尤其是針對大規模非凸優化問題,如何穩定且快速地收斂成為關鍵議題。Adam、RMSProp、Adadelta、Nadam 等演算法由於其優異的適應性學習率調整能力,在訓練深度神經網路上獲得廣泛應用。然而,儘管這些算法在實務中取得了顯著成功,近年來已有不少研究和觀察指出這類基於梯度平方平均(exponential moving average, EMA)的優化器,有可能在某些情況下不收斂,甚至無法逼近全域最優或可接受的鞍點解,此現象在多維大輸出空間的學習任務中尤為明顯。

本篇由Reddi、Kale與Kumar於ICLR 2018發表並榮獲最佳論文獎的研究,針對上述問題作出系統性分析與革新,揭示了Adam演算法不收斂的根本原因,並提出可有效解決問題的新方法,進而推動優化方法領域的理論與實務發展。

研究背景與動機

隨著深度神經網路架構日益複雜與龐大,傳統的隨機梯度下降(SGD)以及其變種在調參與收斂速度上面臨諸多挑戰。Adam以其自適應調整學習率的能力大幅簡化了調參難度,並加速了訓練過程。然而,該方法背後採用的梯度平方EMA,其設計雖能基於過去梯度資訊調整學習步伐,卻潛藏理論上的收斂隱憂。過往針對Adam的收斂分析存在缺陷,導致演算法在凸優化或非凸優化中可能陷入震盪,無法收斂至理想解。

Reddi等人期望借由嚴謹的數學分析,釐清為何Adam會失效,並改善其基本架構,使其在理論上具備收斂保證,同時保持實務中優異的收斂速度與性能。

核心方法與創新

論文中,作者首先利用凸優化的數學範例明確建構了一個Adam無法收斂的反例,指出問題源自於Adam中使用的指數加權移動平均(EMA)對過去梯度權重的衰減速度過快,導致對歷史資訊的「短期記憶」效果過強。換句話說,Adam在調整學習率時,忽略了長期梯度趨勢的重要性,這種短期記憶使得步伐更新出現偏差而導致震盪。

基於此洞察,作者提出了一種稱為AMSGrad的新變種演算法。AMSGrad的主要改進在於引入一個「長期記憶」機制,具體作法是保持過去梯度平方的最大值作為基準,確保每一輪更新的學習率不會輕易突然增大,從而達到學習率的單調性和穩定性。AMSGrad透過改寫動量項與適應性學習率的計算方式,成功避免了Adam中EMA衰減過快所帶來的不穩定性。

論文中也詳細分析了AMSGrad的收斂性,證明在凸問題中,AMSGrad能夠保證達到全局最優解或某種可接受的準則解,彌補了原始Adam無法提供收斂保證的缺陷。除此之外,作者提出的框架不僅適用於AMSGrad,也啟發後續研究設計更多結合長期梯度記憶的優化方法。

主要實驗結果

為了驗證理論與方法的有效性,作者在多個標準深度學習任務及數據集上進行了廣泛實驗。實驗結果顯示,AMSGrad相較於Adam、RMSProp等優化器,在收斂性與最終準確率上均有穩定提升,特別在一些對收斂條件要求較嚴格的場景中,AMSGrad表現出明顯的優越性。

以圖像分類(如CIFAR-10、ImageNet)及語言模型訓練為例,AMSGrad展現出的收斂曲線更為平滑且無震盪,最終損失函數也較低,驗證了長期記憶機制確實能帶來更穩定可靠的學習過程。此外,AMSGrad在學習率超參數上對使用者的敏感度降低,減少了人工調教的負擔。

對 AI 領域的深遠影響

這篇論文的重要貢獻不僅在於點出了Adam不收斂的真實原因,還進一步從理論和實踐層面提出了可行的改進方法,為後續改良與設計自適應優化器奠定了基礎。AMSGrad的提出打破了過去大家對Adam完美性能的盲目信任,促使社群以更嚴謹的態度重新審視並優化深度學習的訓練流程。

後續大量研究受到此文啟發,紛紛探究將長短期梯度記憶結合於各種優化演算法的可能性,從而推進了自適應優化方法的理論深度與工程實用性。特別是在大規模分散式訓練、高維度優化問題與非凸情境下,保證收斂性並提升穩定性仍然是挑戰,AMSGrad 和其後繼方案為解決這類問題提供了切實的理論工具和技術框架。

整體而言,此篇最佳論文不僅在優化理論領域具有學術價值,也在深度學習實務中展現出顯著的應用潛力,成為後續研究與工程實踐中不可或缺的參考基準。對AI領域工程師或研究生而言,理解與掌握AMSGrad與其背後的理論邏輯,將有助於設計更健壯且高效的學習系統,是一項重要且具前瞻性的技能積累。


論文資訊
📄 On the Convergence of Adam and Beyond
👥 Reddi, Kale, Kumar
🏆 ICLR 2018 · Best Paper
🔗 arxiv.org/abs/1904.09237

沒有留言:

張貼留言