行有餘力則以學文: Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

2026年4月10日星期五

Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

在當前深度學習與強化學習領域中，處理非結構化、無法直接求導的黑盒函數優化問題是一項重要挑戰。特別是涉及到「反向傳播難以進行」或「梯度資訊不可得」的場景，這種問題遍布於許多應用，例如元學習（meta-learning）、超參數優化、神經架構搜尋（NAS）以及部分增強學習（RL）策略。Vicol、Metz 以及 Sohl-Dickstein 在 2021 年 ICML 發表的論文《Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies》提出了一套創新的梯度估計方法——Persistent Evolution Strategies（持續演化策略，以下簡稱 PES），成功解決了在「展開計算圖」（unrolled computation graphs）中獲取無偏梯度估計的問題。因此該論文榮獲當屆 ICML 優秀論文獎 (Outstanding Paper)，對於有意優化複雜物理模擬、元學習等問題的研究者或工程師提供了重要啟發。

研究背景與動機

在許多機器學習任務中，我們往往需要對一個復雜計算程序的最終輸出相對某些參數求梯度。例如在元學習中，為促使模型快速適應新任務，我們必須將「內部更新」過程展開成一個長串的迭代運算圖，然後反向傳播誤差來更新外部參數。然而，這種「展開計算圖」的反向傳播並非總是可行，特別是在黑盒函數（black-box function）或模擬器優化中。傳統的演化策略（Evolution Strategies, ES）提供一種不需要明確求導的無偏梯度估計方法，但其在計算展開圖的梯度時存在兩大瓶頸：

必須重複完整展開流程，帶來極高計算成本，特別是在時間跨度長的展開上，會導致估計方差爆炸。
缺少利用過去估計結果的策略，導致每次估計彼此獨立，樣本效率極低。

因此，如何在保證梯度估計無偏且方差可控的前提下，提升計算與樣本效率成為關鍵難題。PES 正是在此背景下被提出，旨在有效地擷取跨時間步的參數梯度信息，並挖掘連續更新間的結構性關係。

核心方法與創新

PES 建立在傳統演化策略的基礎上，將「參數擾動後累積梯度估計」整合為一個持續演化的過程。具體來說，他們針對含有多階段迭代更新的計算過程，設計了一種能夠「跨時間步」保存並累積噪音梯度的機制，藉此減少方差、提升估計穩定性。其關鍵創新包括：

持續參數擾動：將參數的隨機擾動不再是獨立采樣，而是在每一步不斷「演化」並保存，類似於離散時間的馬可夫過程，從而充分挖掘時間序列間的依賴。
無偏梯度估計證明：透過數學推導證明該方法對於展開計算圖中參數的梯度估計仍是無偏的，不會因為持續演化而引入系統性誤差，這相當關鍵，保證了優化的基礎理論安全性。
方差降低機制：利用先前梯度估計信息，使得隨機噪音能跨時期整合，顯著抑制隨時間展開通常會爆炸的方差問題，穩定訓練過程，提升樣本效率與收斂速度。

另外，PES 在設計上還兼顧了實際工程中記憶體與計算效率的限制，適合應用於超長期的迭代展開問題，克服了經典 ES 在此類任務中的侷限。

主要實驗結果

作者在各類典型複雜展開計算圖問題上驗證了 PES 的優異性能，包括：

元學習與超參數優化：PES 在透過展開多階梯度更新的元學習任務上，成功提升梯度估計的準確度與優化穩定性，相較於基準方法（如傳統 ES 或截斷反向傳播 Truncated BPTT），PES 展現了更快的收斂速度與更低的測試誤差。
強化學習環境：在部分強化學習控制任務中，PES 能有效地估計未來較長時間跨度上的梯度信號，提升策略優化的穩定度，尤其是在高維、非線性且非可導系統中表現出明顯優勢。
高維黑盒函數優化：實驗中 PES 展示出強大的泛化能力，能在參數空間維度極高的設定下仍維持低方差的無偏梯度估計，減少所需的樣本數量，提升計算效率。

整體來看，PES 不僅理論性得到嚴謹證明，更在實驗中切實踐行其在高複雜度計算圖中的優勢，顯著推動了可展開計算圖優化技術的發展。

對 AI 領域的深遠影響

PES 的問世對於 AI 領域產生了多方面的深遠影響，主要體現在：

提升元學習與長期依賴優化的可行性：元學習等任務往往需要計算跨多次迭代的梯度，過去面臨梯度消失、爆炸與計算瓶頸限制。PES 有效降低其階段性方差，提升優化穩定性，成為元學習特別是在神經網路結構與超參數快速調整上的重要利器。
促進黑盒優化技術發展：以往演化策略雖提供無導數的優化方案，但受到采樣效率低與方差高的困擾。PES 帶來一種「持續更新」的思想，挖掘時間序列依賴，推動黑盒函數優化技術在實務中具更廣闊的應用空間。
跨領域問題求解的啟示：PES 所提出的持續噪音演化與整合方法概念，具有延展潛力，不僅限於 AI，還可用於物理建模、複雜系統模擬等需要長期歷程優化的場景，開啟新型數值方法的可能性。
促使演化演算法與梯度方法融合的研究熱潮：PES 開啟了演化策略與傳統梯度法相互融合的新思維，推動研究者致力於開發能結合黑盒探索與效率梯度迭代的混合算法，構建更加強大且適應性強的優化框架。

總結來說，PES 在無導數優化中實現「無偏且低方差」的展開計算圖梯度估計，突破了傳統方法的瓶頸，成為 AI 領域在處理高維度黑盒函數、元學習、強化學習中不可多得的一項革新技術。對於專攻深度學習優化、元學習架構設計、黑盒函數求解等的工程師與研究生而言，本論文所推薦的方法值得深入理解與應用，亦具備開啟未來新研究方向的潛力。

論文資訊
📄 Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies
👥 Vicol, Metz, Sohl-Dickstein
🏆 ICML 2021 · Outstanding Paper
🔗 arxiv.org/abs/2112.02434