2026年4月16日 星期四

Learning-Rate-Free Learning by D-Adaptation

在機器學習尤其是深度學習訓練過程中,學習率(learning rate)的調整一直是影響模型效能和收斂速度的關鍵超參數之一。傳統上,使用者需要基於經驗或採用策略性手動調整學習率,或是使用複雜的學習率調度器(如預熱、餘弦退火等),甚至在訓練過程中多次嘗試不同的學習率,這不僅繁瑣耗時,也可能導致性能不穩定。ICML 2023 優秀論文《Learning-Rate-Free Learning by D-Adaptation》由 Defazio 與 Mishchenko 提出了一種全新的自適應學習率方法:D-Adaptation,該方法不僅免除了任何手動設定和調整學習率的需求,還能在凸 Lipschitz 函數優化問題中達到理論上的最優收斂率,且無需額外的函數值或梯度計算,創新意義極具突破性。

研究背景與動機

在凸優化,尤其是用於機器學習的隨機梯度下降(SGD)及其變體中,學習率是控制參數更新步伐的核心因素。選擇太大學習率容易導致不穩定甚至發散,太小則收斂速度緩慢。雖有不少學習率自動調整策略,如線搜尋(line search)、基於梯度變化率調整、及適應性優化器(如Adam)的內建學習率調節,但這些方法或多或少依賴額外超參數設定,或者需要額外的函數評估,增加計算成本。

此外,之前一些以無須預設學習率的自適應方法往往伴隨著收斂率上的「乘法對數因子」penalty,使其理論收斂速度不如明確調整的優化器。Defazio 與 Mishchenko 意識到,要減少這種人工干預,必須提出一種全新方法,使最終算法既不依賴任何學習率超參數,也能理論上和實踐中達到最佳收斂率,且不增加每一步的額外計算代價。

核心方法與創新

D-Adaptation 的核心思想在於引入一個自我調節的距離尺度(D,distance),該尺度根據模型參數更新的序列自適應地調整,以此自動推導當前合適的學習率。具體來說,D-Adaptation利用了歷史參數變化量的累積信息來估計問題的數據特性,允許系統無需外部規定學習率,而是依據實際優化軌跡「動態調整」步長。

這種方法不依賴線搜索或回溯策略,也不需在每步中多額外計算函數值或額外梯度,因此非常適合大規模優化。論文證明,該算法在凸 Lipschitz 函數的隨機優化任務中,能以與理論最優收斂率相當的速度收斂,且不會出現多餘的對數因子,這比以往任何不需手動設置學習率的方法都更有效率。

更值得一提的是,作者將 D-Adaptation 應用於兩個主流優化器 - 簡單的 SGD 以及自適應學習率優化器 Adam。透過修改這些優化器的更新規則,使其自動產生動態調整的「隱式學習率」,無需任何超參數微調,展現了方法的良好兼容性與廣泛適用性。

主要實驗結果

作者在包含視覺及語言等多領域的十多個機器學習問題上,對比了標準 SGD 與 Adam 及其 D-Adaptation 版本,並與大量手動調優的學習率表現進行比較。結果顯示,D-Adaptation 版本的優化器能自動達成與精心設計的手動學習率相媲美甚至更佳的性能,涵蓋從小型中等規模數據集到大型視覺模型與自然語言處理任務。

實驗中,D-Adaptation 不僅避免了手動調參的繁瑣,也減少了反覆嘗試學習率的時間成本。其訓練過程保持穩定,收斂擴展性強,而且計算效率幾乎無損,對於大規模分布式訓練也表現出優秀潛力。

此外,論文公開提供了完善的開源實現,使其他研究者和工程師可以簡便地在實際項目中試用此技術,加速了該方法的普及與推廣。

對 AI 領域的深遠影響

D-Adaptation 的提出對深度學習優化領域具有革命性的意義。首先,它挑戰了「學習率必須依靠人工調整」的傳統觀念,推動優化算法向更高的自動化與少超參數化方向發展。對於研究者而言,可以將更多精力集中在模型結構與任務本身,減少為選擇學習率所耗費的調試時間。

其次,在產業界,大規模模型及其訓練資源的消耗巨大,自動調整學習率可大幅簡化部署與維護流程,降低成本,同時讓模型訓練更加穩定可靠,這對加速 AI 應用落地具有重要價值。

最後,D-Adaptation 為理論研究開拓了新方向:如何從優化軌跡中有效捕捉動態尺度信息而無需多餘的函數計算開銷,這種思路或能被拓展到非凸優化、強化學習等更複雜的場景中。

總結來說,Defazio 與 Mishchenko 的工作不僅在理論上建立了無學習率調參的最優收斂保證,其簡潔高效的實作和豐富實驗驗證也為實際應用提供了強力支撐,是目前優化自適應方法中一個重要里程碑。


論文資訊
📄 Learning-Rate-Free Learning by D-Adaptation
👥 Defazio, Mishchenko
🏆 ICML 2023 · Outstanding Paper
🔗 arxiv.org/abs/2301.07733

沒有留言:

張貼留言