2026年6月6日 星期六

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet) 深度解讀

在當前人工智慧領域中,生成模型的應用極為廣泛,從自然語言生成到分子結構設計,皆需有效且多樣化的候選解生成策略。傳統的強化學習(RL)通常聚焦於尋找最大化報酬的單一路徑,也就是尋找報酬最高的解,然而在許多實際任務中,我們更希望從高報酬空間中抽樣多元且豐富的候選解,例如藥物設計或黑箱函數優化情境中,這些場景需求在有限回合且每回合大量查詢條件下,產生多元高品質解,提升探索效率與結果多樣性。Bengio 等人於 2022 年 ICLR 提出的《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》一文,正是針對此類問題提出突破性的解決方案,並因其原創性與實用價值榮獲傑出論文獎。

研究背景與動機

在強化學習中,典型目標是最大化「累積報酬」(return),這導致學習結果常集中於少數最佳策略,忽略了報酬次優卻多樣的解。這種策略固然有效,但在科學發現、設計優化等領域,使用者往往需要多樣化的候選方案供後續選擇,故追求一種能以報酬為基礎比例抽樣的生成機制顯得尤為重要。傳統上,利用馬可夫鏈蒙地卡羅(MCMC)方法雖可從目標分布抽樣,但其採樣效率低,且多屬局部探索,無法快速產出多樣化樣本。如何設計一種高效的生成策略,不僅能輕鬆產生符合某正向評價函數比例分布的樣本,也能享有非迭代、快速且多樣化的生成特性,成為該論文的核心動力。

核心方法與創新

論文提出的 GFlowNet(流網路生成網絡)是一種新穎的生成策略,將生成問題視為「流網路」(flow network)上的流量分配問題。GFlowNet 的關鍵創新在於:

  • 生成過程建模為流網路:生成一個物件的過程被拆分為一連串狀態遷移(例如分子中的原子逐步添加)。在此網路中,每條邊代表一項決策行動,整個網路承載「流量」代表生成該狀態的概率質量。
  • 流一致性(Flow Consistency)約束:作者透過將生成路徑集合的流量定義成一種流量平衡約束,如同物理流水穩態般,確保從初始狀態到終端狀態(生成物)流量一致。這種流一致性對應於「Bellman 方程式」的泛化形式,使得模型能在任一狀態保持流量守恆。
  • 多路徑對應同一終端狀態的處理:在分子生成等問題中,可能存在多條行動路徑對應同一生成物。GFlowNet 能透過流網路結構處理此種「多重軌跡」同終點的情形,打破單一路徑的限制。
  • 以 Temporal Difference (TD)學習類比的方法訓練:GFlowNet 定義了流量一致性損失,類似 TD 方法中的誤差最小化,藉此訓練可產生符合報酬比例分布的隨機政策。

整體而言,GFlowNet 不同於傳統 RL 追求唯一最佳路徑,改為學習一個能按報酬比例產生多元解的隨機策略,其訓練目標保證在優化滿足流一致性時,所學策略的生成分布正比於目標報酬函數。

主要實驗結果

論文中呈現了 GFlowNet 在兩大類簡單且具代表性的實驗域驗證其效能:

  1. 多峰獎勵函數的簡化合成環境:在一個合成環境中,獎勵函數呈現多峰結構,代表存在多個高質量解。GFlowNet 成功從多峰分布中抽樣出多樣化樣本,且樣本分布與目標報酬比例相符,表現遠優於傳統最大化報酬策略的單峰探勘。
  2. 分子合成任務:該任務需依序加入原子形成分子結構。GFlowNet 能有效生成化學合理且報酬較高(如藥效指標)的多元分子樣本。相較於 MCMC 與標準 RL 方法,GFlowNet 在生成效率和解的多樣性方面均有顯著提升,尤其對於探索化學空間的不同結構類型有更全面的覆蓋。

此外,理論證明部分強調了當學習目標趨近於全局極小值時,GFlowNet 策略生成分布即達到目標報酬比例,增強了此方法的嚴謹性和可靠性。

對 AI 領域的深遠影響

GFlowNet 的出現,為解決大規模組合空間中多模態分布的生成問題,提供了一條創新且高效的新路徑。它的影響主要體現在以下幾點:

  • 多樣性與效率兼備的生成策略:相較於傳統 RL 總是追求「最佳解」的觀念,GFlowNet 鼓勵尋找配合獎勵函數加權的多樣解,擴展了生成模型的視野,特別適合科學發現、藥物設計等需多樣化解的領域。
  • 理論與實務結合的創新框架:以流網路和 TD 學習思想結合,不但架構上新穎,也具備理論收斂保證,降低了單純實驗導向方法的不確定性,促使更廣泛可應用於不確定性高的複雜空間生成問題。
  • 可擴展至黑箱優化等多種場景:透過學習一個生成(抽樣)策略以分攤查詢成本,GFlowNet 對有限查詢且需大量平行生成建議的問題(如材料科學、結構優化)尤為重要。這可望加速自動化科學與工業流程的革新。
  • 啟發生成模型與強化學習新融合方向:GFlowNet 的方法論同時呼應生成模型(如 VAEs、GANs)與強化學習的優勢,促使未來在設計基於策略的生成演算法上有更多創新思路。

綜合來說,Bengio 等人於 ICLR 2022 發表的 GFlowNet 論文,不僅在理論層面提供了堅實的基礎,也在實務應用中展現了突破性的效果。其對未來生成模型設計、多目標優化及科學計算領域均帶來深遠影響,成為近年生成策略研究中的重要里程碑。


論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:

張貼留言