行有餘力則以學文: Learning-Rate-Free Learning by D-Adaptation

2026年5月29日星期五

Learning-Rate-Free Learning by D-Adaptation

在現代機器學習與深度學習的訓練過程中，調整學習率（learning rate）是一個關鍵且棘手的問題。學習率影響模型收斂速度與最終性能，過大可能導致發散，過小則收斂過慢。傳統上，研究者與工程師常藉由經驗法則、網格搜尋或使用各種調度策略（如 warm-up, cosine decay）來設定與調整學習率，但這些方法通常需要大量試驗與調參，且學習率的選擇往往受問題與資料特性的影響，缺乏通用且自動適應的解決方案。

為解決此問題，Defazio 與 Mishchenko 在 ICML 2023 發表的傑出論文《Learning-Rate-Free Learning by D-Adaptation》提出了一項創新方法 —— D-Adaptation，它能自動調節學習率，且不需要任何人工設定的超參數（hyper-parameter-free）。該方法針對凸函數優化問題，特別是 Lipschitz 條件下的優化空間，展示了理論與實務上的重大突破。

研究背景與動機

優化問題中，梯度下降法（Gradient Descent, GD）及其隨機版本（SGD）是基礎而強大的工具，對深度學習模型的訓練更是至關重要。學習率的選擇直接影響模型能否快速且穩定地接近全局或局部最小值。然而，理論最佳學習率通常依賴於諸如梯度範數上界（Lipschitz 常數）和目標函數的平滑性等不可或缺但難以直接取得的資訊。

既有的方法多半依賴動態調整學習率，如動量、ADAM、RMSprop 等，但它們仍然需要設定初始值或手動調整。此外，爲了保持最佳收斂速度，部分理論演算法會結合複雜的行線搜尋（line search）或回溯（back-tracking）策略，導致每步計算成本提高，並且在大規模深度學習中的實用性受限。

因此，Defazio 與 Mishchenko 的主要動機是設計一種可以在不需要手動設定學習率或其他相關超參數、且不新增額外函數或梯度評估步驟的前提下，仍能實現理論上收斂率最佳化的學習率自適應機制。

核心方法與創新：D-Adaptation

D-Adaptation 的核心理念在於透過一種動態估計方法直接調節學習率，根據梯度訊息自適應調整不確定參數的尺度，使演算法在每一步皆能自動找到理想的步長。它的關鍵亮點包括：

無學習率前置設定：演算法完全不依賴於人工設定的學習率初始值。
無需額外函數或梯度運算：在每一步更新中，不進行額外的函數評估或梯度計算，避免計算負擔增加。
沒有複雜的回溯與行線搜尋：避免傳統演算法為保持收斂性所須的慢速步驟調整。
理論最優收斂率：在凸 Lipschitz 函數下，證明其收斂速度可達到最佳階，且無額外的對數因子（log factors），這是許多其他無參數方法無法達成的。

更技術面來說，D-Adaptation 透過估計一組動態尺度 d，將其用於縮放梯度方向，使得調整後的步距能自動適應函數的平滑性與梯度大小，而無需外部指定。這種尺度的更新過程具有良好的數學性質，能保證理論上的收斂性，同時具備良好穩定性。

此外，該方法不僅限於傳統 SGD，同時也能與 Adam 等自適應優化器結合，進一步擴大其應用範圍與實用價值。

主要實驗結果

論文中，作者進行了廣泛且具代表性的實驗，涵蓋超過十多種不同的機器學習任務，包括大規模視覺與語言模型訓練：

多樣任務多演算法測試：將 D-Adaptation 整合到 SGD 和 Adam 兩種優化器中，在圖像分類（如 CIFAR-10、ImageNet）、自然語言處理（如 Transformer 模型）等多種任務上進行比較。
自動調整學習率匹配手動調參：D-Adaptation 模式下的學習率動態調整能夠自動達到甚至超越人工精心調整的學習率效果，收斂速度與終端性能均具競爭力。
穩定性與通用性：各項實驗結果顯示該方法能在不同資料集、模型架構與優化器設定中保持表現穩定，證明其具備高度的泛化能力。

實驗結果強烈表明，D-Adaptation 是一種兼具理論嚴謹與工程實用性的突破性方法，不僅簡化了優化器中最為麻煩的一個超參數調整環節，也提高了訓練效率與可重現性。

對 AI 領域的深遠影響

D-Adaptation 的出現對 AI 特別是深度學習訓練與優化領域帶來多重正面影響：

降低訓練門檻：對許多中小規模研究團隊甚至個人研究者而言，消除了繁瑣且費時的學習率調參工作，令模型訓練更為「即插即用」。
促進自動機器學習（AutoML）發展：無參數且理論保證的方法能進一步推動更多超參數自動調整技術，提升自動化機器學習的成熟度與廣泛應用可能。
理論與實務橋樑：D-Adaptation 結合理論最優收斂率與實際工程便利，是少數兼具嚴謹數學證明且具高效率實現的自適應學習率策略，為未來研究設計無超參數優化器奠定標桿。
廣泛應用潛力：由於該方法可以無縫整合於主流優化器（如 SGD、Adam），未來可望應用於超大規模深度模型的訓練，並在自然語言處理、電腦視覺、強化學習等多重領域普及。

總結而言，Defazio 與 Mishchenko 這篇《Learning-Rate-Free Learning by D-Adaptation》不僅在理論上突破了使用超參數優化率所面臨的限制，在實務應用上也提供了極具吸引力且可行的替代方案。對於追求高效且自動化模型訓練流程者來說，這篇論文極具參考價值，未來有望成為標準優化策略之一，持續推動 AI 領域的研究與產業發展。

論文資訊
📄 Learning-Rate-Free Learning by D-Adaptation
👥 Defazio, Mishchenko
🏆 ICML 2023 · Outstanding Paper
🔗 arxiv.org/abs/2301.07733