2026年5月18日 星期一

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)

在生成模型的研究領域中,一直以來如何有效且多元地生成高質量候選樣本,都是極具挑戰性的問題。傳統生成方法如變分自編碼器(VAE)、生成對抗網路(GAN)或基於強化學習的序列生成模型,常常面臨模式崩潰(mode collapse)或樣本多樣性不足,以及生成過程往往需進行耗時的迭代決策等限制。2022 年 ICLR 大會上,Bengio 等人提出了一項創新且影響深遠的工作 ——《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation》,又稱為 GFlowNet(Generative Flow Networks),此論文獲頒 Outstanding Paper,彰顯其顛覆傳統生成思維的突破性貢獻。

研究背景與動機

在許多應用場景如藥物設計、分子結構合成、強化學習中的計畫生成等,往往需要一次生成多個高品質且多樣化的候選解。傳統方法多依賴蒙地卡羅樹搜尋(MCTS)或強化學習策略逐步生成,其中存在效率瓶頸,也容易在報酬信號稀疏時導致探索不足。更重要的是,這些方法通常將生成過程視為貝爾曼方程下的序列決策問題,僅尋求最大化期望報酬的最優策略,於是很難同時獲得多樣且在報酬上有競爭力的樣本。

因此,論文團隊提出 GFlowNet,希望能建構一種生成網路架構,使得生成過程能以非迭代(或是可視為單次抽樣)的形式完成,且能從報酬函數定義的非負分佈中抽取樣本。換言之,GFlowNet 的目標是學習一個流量網路(Flow Network),將不同生成路徑的「流量」調配成一個概率分佈,鼓勵模型同時探索多個候選解,實現報酬驅動的多樣性生成。

核心方法與創新

GFlowNet 的核心觀點來自於將生成過程視為在一個有向無環圖(DAG)上的流網路問題。節點代表生成狀態(如分子組成片段),邊代表動作(如添加原子),最終抵達終止節點即完成一個生成樣本。與傳統強化學習只學習策略(policy)不同,GFlowNet 同時學習向前流(forward flow)與反向流(backward flow)。其基礎是將「流量守恆方程」與「流量一致性」作為學習目標,確保每個節點的流量既等於其進入流量,也等於出口流量之和,這樣就可將生成樣本的整體機率視為隨報酬值加權的流量分配結果。

此方法的技術突破有幾個要點:

  • 流量一致性學習:透過定義flow matching loss來逼近生成路徑的流量守恆,使模型學到一個穩定且正交的流動分佈,而非僅依靠獎勵最大化,讓機率分佈更豐富。
  • 非唯一最優解:不同於傳統強化學習追求單一路徑最大報酬策略,GFlowNet 可同時捕捉多條報酬相近的生成路徑,避免模式崩潰,促進多樣性。
  • 高效生成過程:流程可設計為非迭代或低迭代步驟的生成,節約時間成本,且能直接從已訓練的流網路中抽樣出多樣候選。
  • 理論基礎堅實:作者將流網路理論結合機器學習訓練,提供明確的數學框架,並在隨機過程與貝氏網絡表示中都具有嚴密性。

主要實驗結果

論文中進行多組嚴謹的實驗,涵蓋合成多樣化分子結構、組合優化問題,以及強化學習環境中求解多峰解的任務。實驗結果顯示:

  • 多樣性顯著提升:相比於強化學習的最大報酬策略與變分推斷,GFlowNet 在相同報酬門檻下生成出更多互異且合理的樣本。
  • 報酬結構捕捉精確:生成樣本的概率與設計的報酬函數高度吻合,證明流量守恆原理在學習過程中有效指導模型。
  • 樣本效率優越:GFlowNet 相較於悉數蒙地卡羅採樣或 MCTS,有更快的收斂速度與更佳的探索能力,適合應用於稀疏回報環境。
  • 泛化能力強:在未見過的生成空間中依然能保持候選多樣化,展現模型強大的泛化潛力。

對 AI 領域的深遠影響

GFlowNet 的提出改寫了生成模型與強化學習策略搜尋的思維架構。傳統生成模型多專注於模擬資料分布本身,而強化學習則是透過報酬最大化來進行決策優化。GFlowNet 則將兩者結合,以「流量」作為生成的概率守恆依據,打造一種既能兼顧報酬指標又不失多樣性的全新架構。

此方法的影響可概述為:

  • 架構普適性:GFlowNet 提供了一套系統化且數理嚴謹的框架,可用於從分子設計、組合優化到程序合成等多種領域,尤其適合求解多峰優化問題。
  • 促進科學發現:在化學、材料科學等需要搜索眾多候選結構的領域,GFlowNet 能提供具多樣性與高品質的結構候選,推動高通量篩選和自動化設計。
  • 加速強化學習研究:為面對稀疏回報和策略單峰陷阱的問題提供新思路,相關演算法有望在策略規劃與決策過程中更加靈活且高效。
  • 啟發後續研究:論文提供了清晰的數學定義與實驗驗證,為基於流網路的生成模型拓展了方向,促使後續研究在結構化生成及多樣化樣本生成效率上持續突破。

綜合而論,Bengio 等人提出的 GFlowNet 是生成模型與強化學習領域的重要里程碑,不僅理論基礎紮實且實驗效能卓越,為解決多樣化、有條件的高維生成問題開拓出全新路徑。面對未來更複雜的多峰優化與高維結構搜索任務,GFlowNet 領先展示了流網路理論與機器學習模型結合的巨大潛力與應用價值。


論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:

張貼留言