隨著深度學習技術的快速發展,優化演算法在訓練深度神經網路中扮演關鍵角色。Adam等自適應學習率優化演算法因其優異的收斂速度與實驗結果,在包括語言模型、圖像識別及強化學習等多種任務中被廣泛採用。然而,儘管Adam在實務上表現良好,其理論收斂性卻一直存在爭議,尤其在某些非凸優化問題中表現出無法收斂甚至震盪的問題。2018年ICLR由Reddi、Kale與Kumar提出的《On the Convergence of Adam and Beyond》一文,正是針對這些問題深入剖析並提出解決方案,最終獲得該年度的最佳論文獎,成為優化理論與實務的重要里程碑。
研究背景與動機
早期的隨機梯度下降法(SGD)雖然理論穩健,但在高維度及非凸環境下收斂速度較慢。為了加速收斂,業界與學界相繼提出多種基於動量(momentum)以及自適應學習率策略的優化方法,如RMSProp、Adadelta與Adam。Adam演算法結合了梯度的一階矩估計與二階矩估計,透過指數移動平均(exponential moving average, EMA)動態調節學習率,顯著提升了訓練效率與穩定性。然而,近年來的實證研究發現,Adam在某些設定下不但不保證收斂,甚至會在凸優化問題中陷入非最優解。這種現象不僅挑戰了Adam的理論基礎,也限制了其在更複雜任務中的應用。
針對上述動機,本論文主要目標為:
(1)嚴謹且具體地分析Adam不收斂的根本原因;
(2)指出先前研究中Adam收斂分析的不足與謬誤;
(3)提出改進策略以保證收斂性,同時保持甚至提升Adam的效能。
核心方法與創新
本論文的核心創新首先源自對Adam演算法的理論剖析。論文作者巧妙設計了一個簡單但具代表性的凸優化例子,用來顯示Adam因使用指數移動平均的二階矩估計造成學習率調整錯誤,導致不收斂或震盪。這直接挑戰了當時普遍接受的Adam理論假設。
具體而言,Adam通過計算梯度平方的指數平均值來調整每個參數的學習率,這種「短期記憶」機制會使得對過往梯度的資訊更新過快,忽略了較早期梯度的影響,導致學習率可能被錯誤調整,最終無法保證收斂。
針對此問題,作者提出一種新型優化算法,稱為AMSGrad。AMSGrad的核心改動是在二階矩估計部分引入「長期記憶」機制,實現了一種變量二階矩的非遞減性限制。具體而言,AMSGrad保持歷史中最大(而非指數平均)平方梯度的值,防止學習率因二階矩估計降低而變得過大或不穩定。數學上,這相當於將梯度平方的估計值用逐元素的上界來代替EMA,確保學習率調節更加穩健。
AMSGrad不僅在理論上證明了在凸優化問題下的收斂性,其分析也完整糾正了原Adam收斂證明中的謬誤,建立了嚴謹的收斂保證。除此之外,研究團隊還對原Adam及其他相關方法進行拓展與總結,組成一套統一的自適應優化方法架構,為後續研究指明方向。
主要實驗結果
為了驗證AMSGrad的理論優勢,作者設計了一系列經典且具代表性的優化任務,包括合成的凸優化問題,以及實際深度學習任務(例如多層感知機、卷積神經網路等)。實驗結果顯示:
- 在構造的凸例子中,Adam常表現出不收斂或震盪,而AMSGrad則穩定收斂至全局最優解,完全吻合理論預期。
- 在深度學習任務中,AMSGrad不僅保有Adam原本的優秀收斂速度,且在訓練過程中表現更為穩定,對超參數調節的敏感度也降低。
- 與其他自適應方法如RMSProp、Adadelta相比,AMSGrad在大部分測試中表現更具魯棒性與泛化能力。
透過理論與實驗的雙重驗證,AMSGrad展現了改善Adam收斂性的同時,也維持了其在實務應用中的競爭力。
對 AI 領域的深遠影響
《On the Convergence of Adam and Beyond》這篇論文在理論和實務兩大層面都有深遠影響:
第一,理論層面:其首度揭示了指數移動平均在優化中的潛在缺陷,並提出緊湊且可證明收斂的AMSGrad算法。這重塑了學界對自適應優化算法的理解,促進後續大量關於優化理論、收斂性及算法設計的研究。許多後續的工作如AdaBound、Yogi等,都在此基礎上繼續改進自適應學習率策略。
第二,實務層面:由於Adam是目前最常用的優化算法之一,AMSGrad及其後續改進方案可直接提升深度學習模型訓練的穩定性與效率。特別是對於大型模型、非凸複雜任務及分散式訓練,這類方法大幅減少超參數調整時間,促進了深度學習在工業界和研究中的落地與換新。
第三,推動了優化算法從經驗驅動向理論支撐的轉變,這使AI研究逐漸走向更系統化及可解釋的方向。透過明確的數學證明與設計原則,研究者和工程師能更有信心地選擇和調整優化器,提升模型表現及訓練效率。
總結而言,Reddi等人的這篇論文精彩地融合了理論洞察與實踐改進,解決了Adam算法界多年來的懸疑問題,並啟發了AI優化領域的後續熱潮。不只是深度學習的優化器設計指標,更成為AI系統穩定性與效率提升不可或缺的理論基石。
論文資訊
📄 On the Convergence of Adam and Beyond
👥 Reddi, Kale, Kumar
🏆 ICLR 2018 · Best Paper
🔗 arxiv.org/abs/1904.09237

沒有留言:
張貼留言