行有餘力則以學文: Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

2026年4月4日星期六

Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

在現代深度學習與強化學習領域中，如何有效且精確地計算梯度，是訓練模型關鍵且常見的挑戰之一。傳統的反向傳播（backpropagation）方法雖然十分有效，但在某些特殊情境下，如需要對「未展開計算圖」（unrolled computation graphs）進行梯度估計時，會遇到計算複雜度過高或梯度偏差（bias）過大的問題。Vicol、Metz及Sohl-Dickstein在ICML 2021提出的《Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies》即針對此類應用開發了一套創新且無偏的梯度估計方法，並因此獲得了當年度的Outstanding Paper獎項。

研究背景與動機

許多機器學習問題存在需展開多步計算的情況，例如元學習（meta-learning）、強化學習中策略的演化、神經結構搜尋（neural architecture search），或者基於循環結構的模型（如RNN）的多步展開。在這些情境中，模型參數更新通常依賴該模型展開過程的梯度。然而，展開後的計算圖可能非常龐大，不僅導致顯存爆炸，也增加計算複雜度。此外，一些傳統梯度估計技術如反向傳播透過逐步鏈式法則敏感於長展開時間，容易導致梯度消失或爆炸。相對地，基於黑箱優化的演化策略（Evolution Strategies, ES）能夠利用蒙地卡羅採樣進行優化，尤其在不需梯度可微的黑箱函數環境下展現優勢。然而，原始ES方法在未展開計算圖進行梯度估計時，面臨梯度偏差與高方差的困難。

基於上述問題，作者提出了一套名為「Persistent Evolution Strategies（PES）」的梯度估計框架，旨在結合展開計算圖的特性，設計出既能保留無偏性又能有效減少估計方差的策略。

核心方法與創新

PES的關鍵創新在於將演化策略和計算圖的「展開結構」整合。在傳統ES中，對可優化參數加入隨機擾動後，估計每個擾動對目標函數的影響來求梯度，這種方法在一次性計算時無偏，但當計算圖存在展開（unrolled）結構時，對該結構下整體擾動行為的近似往往產生偏差。

作者指出，若令每一步計算保持獨立擾動，或僅在開始階段加擾，會因忽略跨步擾動相關性導致梯度偏差。PES透過引入「持續」的隨機過程，在展開過程中保留並追蹤隨機擾動的累積影響，進而在整個序列上保持無偏的梯度估計。換言之，PES並非每步重新抽樣擾動，而是維持一組持續存在的隱藏隨機變數，與模型計算的動態緊密耦合，使得估計過程更貼近真實梯度，且降低估計的隨機方差。

數學上，PES定義了一個以持續隨機過程為核心的抽樣機制，配合適當的隨機微分理論，證明了所估計的梯度保持「無偏性」（unbiased），同時在數值上實驗了其方差表現優於傳統ES與其變體。

主要實驗結果

論文中，作者針對多種代表性任務進行了實驗，包括：

遞迴神經網絡的元學習：在few-shot學習設定下，PES展示出比標準ES及部分蒙地卡羅梯度估計更穩定且快速的訓練收斂。
黑盒優化任務：針對數據維度較高且計算圖展開較長的案例，PES同樣展現出其無偏估計的優勢，優於基準方法的梯度變異度控制與回報收益率。
強化學習多步策略調整：PES在策略參數的多步展開梯度估計中，成功幫助提升策略優化效率，尤其在長時間尺度的任務中更顯其穩定性和精確度。

此外，作者對算法的時間和空間複雜度進行了分析，結果證明PES在引入持續擾動機制後，所需額外的計算成本合理且隨序列長度線性增長，可實際應用於大規模系統。

對 AI 領域的深遠影響

PES方法成功地突破了展開計算圖梯度估計中的無偏性困境，為多步展開優化問題帶來了新的思路與工具。此研究的影響體現在以下幾點：

元學習與強化學習的系統改良： 藉由提供無偏且方差較小的梯度估計，PES能推動元學習算法的效能提升，使模型在面對少量樣本時學得更快、更穩健。對強化學習而言，PES幫助優化多步策略的更新，減少策略學習的不穩定性與變異。
黑盒優化方法的提升： 在不需明確梯度資訊但計算過程複雜的優化場景（如結構搜尋、生成模型參數調整等），PES提供了新的無偏估計方案，大幅擴展了演化策略的應用範圍。
推動可微計算圖框架多步展開的理論基礎： PES的理論架構與證明奠定了計算圖中持續隨機擾動的研究方向，促進未來更先進的無偏估計器發展，並有助於解決梯度消失和爆炸問題。
實務應用多元化： 除了機器學習理論外，PES有潛力應用於控制系統優化、生物信息學模擬以及其他工業優化場景，需要展開長時間序列計算的場合。

總結而言，Vicol等人的本篇傑出論文帶來的不僅是一套技術方案，更為多步展開計算圖的梯度估計問題帶來新視野與解決方案，對機器學習社群尤其是研究元學習、強化學習及黑盒優化的學者和工程師而言，具備極高的實務價值和理論意義，將引領該領域未來更多突破與應用發展。

論文資訊
📄 Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies
👥 Vicol, Metz, Sohl-Dickstein
🏆 ICML 2021 · Outstanding Paper
🔗 arxiv.org/abs/2112.02434