行有餘力則以學文: Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

2026年5月29日星期五

Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

在當前人工智慧領域中，許多先進模型的訓練依賴於「展開（unrolled）計算圖」的優化過程，例如基於元學習（meta-learning）、神經網路架構搜尋（Neural Architecture Search, NAS）與優化器學習（learning-to-learn）等應用。這些方法通常透過反向傳播在展開多步的計算圖中計算梯度，以指導模型參數更新，然而當計算圖深度超過一定程度，反向傳播過程的計算與記憶成本極大，且易受「梯度消失」與「梯度偏差」等問題影響。為解決這些挑戰，Vicol、Metz及Sohl-Dickstein在ICML 2021提出了一個名為「持續演化策略（Persistent Evolution Strategies, PES）」的新方法，有效實現展開計算圖中無偏差的梯度估計，獲得評審的一致肯定，榮獲Outstanding Paper獎項。

研究背景與動機

展開計算圖指的是在訓練過程中，將循環或動態系統狀態透過多步展開成一系列可微操作的運算節點。此類技術在許多先進任務中扮演核心角色，例如在元學習中透過模擬多輪優化使模型學會快速適應新環境，或在神經網路架構搜尋中利用展開梯度尋找最佳結構。然而，此類計算圖展開的深度常常高達數十、甚至上百步，直接使用反向傳播法可能會出現巨大計算瓶頸，且由於環境中存在噪聲或近似，反向傳播計算出的梯度可能是有偏的。

過去為緩解此問題，已有相關研究使用「演化策略（Evolution Strategies, ES）」來替代反向傳播，以黑盒優化的方式估計梯度—通常透過對參數進行隨機擾動、計算目標函數的變化，並利用這些觀察來估計梯度。不過，傳統ES方法若直接在深度展開的計算圖上使用，由於每一步的演化策略相互獨立且非持續，導致最終的梯度估計可能是有偏的，限制了其在更複雜問題上的應用。

核心方法與創新

本論文提出了一種創新的「持續演化策略（Persistent Evolution Strategies, PES）」，旨在解決深度展開過程中梯度估計有偏的問題。PES的關鍵創新在於引入了參數擾動的「持續性」：在每一步展開計算中，參數的隨機擾動不是獨立重置，而是「沿著時間持續演化」。這意味著，在整個展開過程中，擾動形成一條連續的隨機過程軌跡，而非多條獨立路徑。此設計能夠捕捉到時間維度上的依賴性，進而維持梯度估計的無偏性。

數學上，PES將參數擾動視作在時間軸上的隨機過程，並透過分析此過程對整體目標函數的影響，推導出無偏的梯度估計器。此方法不僅保留了演化策略的優點（如無需計算複雜或不可微的反向導數），同時有效避免了傳統ES在深度展開時產生的偏差。更重要的是，PES結合了蒙地卡羅采樣技巧，能在計算資源受限的條件下仍維持良好的估計精度。

此外，論文也詳細討論了PES的實現細節，包括如何適當設計擾動的時間相關性、採樣策略以及計算複雜度優化，使其能夠應用於大規模的計算圖展開場景中。作者指出，PES不僅是一個理論貢獻，同時也是一個實際可行的工具，為現代AI訓練中的複雜優化問題提供了新的視角與方法。

主要實驗結果

為驗證PES的有效性與優勢，作者在多個基準任務上進行了嚴格的實驗評測，涵蓋基本的toy問題、元學習任務以至更具挑戰性的強化學習場景。以下為重點實驗結果：

無偏梯度估計的驗證：論文展示了PES估計的梯度在數值上與真實梯度保持良好吻合，並且相比於傳統ES在深度展開計算圖中的偏差明顯降低。
元學習任務：應用PES於經典的模型無參數優化任務中，能夠實現更穩定且更快的收斂，並對未知環境的適應能力顯著提升。
強化學習：在深度展開的策略優化任務中，PES帶來了提升的性能與穩定性，尤其在計算成本受限的情況下仍展現出優異的結果。
計算效率：相較於完全反向傳播，PES顯著減少了計算與記憶需求，使得在硬體受限環境下亦能有效訓練深度展開模型。

總體而言，實驗結果強烈支持PES在實踐中可作為展開計算圖中的替代梯度估計工具，尤其適合無法直接或高效計算反向導數的複雜場景。

對 AI 領域的深遠影響

PES在展開計算圖上提供了一種全新的無偏梯度估計視角，突破了傳統反向傳播在計算資源與梯度準確性上的限制。此方法對多個領域均有深遠影響：

元學習與自適應系統：元學習致力於訓練模型具備快速適應能力，然而多步展開梯度計算昂貴且難以穩定。PES降低了展開深度的計算障礙，促使元學習模型能在更大尺度與更複雜環境中被訓練與部署。
神經網路架構搜尋與優化器設計：在這些領域中，對模型或優化器的訓練過程經常用到多步展開梯度。PES透過無偏階段性更新，讓這類連續優化問題的梯度估計更加精確與穩定，進一步提升搜尋或設計效率。
推動演化策略與黑盒梯度估計方法發展：傳統演化策略常用於梯度不可獲得的情境，PES則成功將其有效應用於可微展開計算圖中，融合了兩大優勢，為黑盒優化方法提供了嶄新方向。
節省訓練資源：深度展開訓練往往受限於巨量記憶與運算負擔，PES減輕了這些負擔，有助於推動更大規模、多階段、長序列的AI模型訓練。

綜合而言，「Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies」一文，不僅在理論上精準定義了展開計算圖中無偏梯度估計的新框架，也提供了一套具體可行的演算法實踐，因而在ICML 2021被評為Outstanding Paper。隨著AI系統越趨複雜且計算需求日益膨脹，PES這種新穎且高效的無偏梯度估計技術，將有望成為未來高效深度展開訓練與黑盒優化的關鍵利器，驅動元學習、自適應系統及黑盒優化等領域的持續演進與突破。

論文資訊
📄 Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies
👥 Vicol, Metz, Sohl-Dickstein
🏆 ICML 2021 · Outstanding Paper
🔗 arxiv.org/abs/2112.02434