2026年5月4日 星期一

Learning-Rate-Free Learning by D-Adaptation

在現代機器學習與深度學習的訓練過程中,學習率(Learning Rate)的調整一直是最關鍵且常見的挑戰之一。傳統的方法多倚賴人工調參、預先設定排程或者使用複雜的學習率調節演算法,如學習率衰減、Warm-up、甚至利用啟發式的 Line Search 等手段。這不僅增加了人力成本,也限制了訓練效率和模型穩定性的提升。ICML 2023 由 Defazio 與 Mishchenko 發表的論文《Learning-Rate-Free Learning by D-Adaptation》則提出了一種革命性的思路,能自動選擇學習率,達到理論上最優的收斂速率,且不需任何後續調參和額外的函數/梯度評估,堪稱是凸 Lipschitz 優化問題中第一個真正「無學習率超參數」的方法,令人十分振奮。

研究背景與動機

凸優化問題,特別是包含 Lipschitz 條件的函數,為眾多機器學習模型訓練過程的核心基礎。理論上,我們希望演算法能夠以最速速率收斂到最優解。然而,在實務操作中,學習率的選擇依然是一大抉擇,不合適的學習率很可能導致訓練過慢甚至發散。過去為了解決此問題,研究者們發展了各種自適應學習率方法(如 AdaGrad、Adam 等),或者借助更多調參機制。然而,大多數方法仍依賴手動調整,且存在引入額外超參數、收斂速率受限於額外倍數對數因子(multiplicative log factors)等問題。

因此,Defazio 與 Mishchenko 期望能創造一種真正擺脫學習率設定的方案,既不需要背追(back-tracking)、也不用線搜尋(line search),更不加任何額外的函數值或梯度評估,其收斂速率又能達到理論最優。此動機極富挑戰性,徽示著若成功能大幅降低訓練過程中人工調參的障礙,並提升模型訓練的穩健性與效率。

核心方法與創新

本論文的核心創新在於提出了「D-Adaptation」機制,這是一種基於已收集梯度與參數歷史數據的演算法設計,能動態估計問題的「距離參數」(Distance Parameter),進而自動調節學習率,而無需事先設定。簡單來說,D-Adaptation 理論架構允許演算法從訓練歷程中學習如何調整更新尺度,使得隨著迭代次數增加,學習率趨近於一個理想的值,自然達到最佳收斂速率。

具體而言,該方法在每次更新中都利用先前梯度和參數差異,估計優化路徑的幾何特性,從而無需額外評估函數值或再次計算梯度,便可得出更新步長。這避免了過去自適應方法經常涉及的額外計算負擔及複雜超參數。同時,D-Adaptation 在理論證明中展現,收斂率不會因為無學習率而有額外乘上對數因子,這是現有類無超參數方法中尚未達成的突破。

此外,本論文也將此機制應用於主流優化器——SGD 及 Adam 的變體,包裝為可直接替換的版本,凸顯其普適性與實用性。此設計不僅解決了學習率調節問題,還保持了原有優化演算法的優勢,使其能輕鬆融入既有訓練流程。

主要實驗結果

Defazio 與 Mishchenko 進行了大量實驗,橫跨多個機器學習領域,涵蓋了超過十多個不同的資料集與任務,從大型視覺辨識到自然語言處理等複雜且具挑戰性的問題。實驗結果顯示,搭載 D-Adaptation 的優化器能自動尋找到與人工作調的最佳學習率相當的表現,甚至在部分任務上超越傳統手動調整的狀況。

實驗也強調了此方法的穩定性與效率,無需精密調參即可維持模型快速且穩定的收斂,顯著降低訓練時對超參數敏感度。此外,論文配套公開了完整的開源程式碼,確保研究社群能快速驗證和推廣此方法。

對 AI 領域的深遠影響

D-Adaptation 代表了機器學習優化領域的一大進展,開創了無需設定學習率即能達到理論最佳收斂的先河。由於學習率調整通常被視為訓練中的關鍵門檻,這項成果有潛力:

  • 減少研究者與開發者在模型訓練初期繁複的超參數調整,大幅加快實驗迭代速度。
  • 提升深度學習模型在大規模、多樣化任務中的訓練穩定度,提升普適性和可靠性。
  • 降低新手入門門檻,促進更多跨領域研究者參與深度學習研發,擴大社群創新能量。
  • 啟發後續在無監督、強化學習等更複雜學習場景中以自動調節機制來優化訓練流程的新方法。

總結來說,《Learning-Rate-Free Learning by D-Adaptation》不只是提出一種理論上嚴謹的新優化策略,更是一項兼具實用價值與技術突破的創新,備受 ICML 評審肯定為傑出論文實至名歸。它為未來自適應優化及自動化機器學習領域,奠定了嶄新且堅實的基礎。


論文資訊
📄 Learning-Rate-Free Learning by D-Adaptation
👥 Defazio, Mishchenko
🏆 ICML 2023 · Outstanding Paper
🔗 arxiv.org/abs/2301.07733

沒有留言:

張貼留言