行有餘力則以學文: Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet) 深度解析

2026年4月5日星期日

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet) 深度解析

在機器學習與人工智慧領域，如何有效且多樣性地產生高品質候選解，特別是在複雜結構的生成任務中，一直是一個具挑戰性的問題。傳統上，強化學習（Reinforcement Learning, RL）多數著重於最大化報酬的策略學習，通常以找到單一的最優解為目標。然而，在諸如分子設計、藥物發現或其他黑盒函數優化問題中，往往不只需要一個最優解，而是期望產生一組多樣且具有高報酬的候選解，這對探索效率和解的多樣性提出了極高的要求。2022年ICLR發表的傑出論文《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》由Bengio等人提出了一種創新的生成框架，正是針對此一需求而設計，提供了一條兼顧多樣性和生成效率的嶄新途徑。

研究背景與動機

在許多複雜任務中，如分子圖的生成與優化，我們需從一系列原子操作中組裝最終分子結構。傳統的強化學習策略透過最大化預期累積報酬，通常導致策略偏向生成少數幾個高報酬的解，忽略了潛在的多樣化可能。而蒙地卡羅馬可夫鏈（MCMC）方法雖能將報酬函數轉換成能量函數並透過采樣獲得多模態分布的解，但其缺點是計算成本昂貴且探索受限於鄰域範圍，缺少全局多樣化搜索能力。在「少輪且每輪大量查詢」的應用場景中，比如分子設計和材料科學，這導致現有方法難以同時兼顧速度和多樣性。

因此，作者們期望提出一種能非迭代、快速且多樣生成樣本的策略，其生成物被期望概率（概率質量函數）與該樣本的正報酬成正比。這種策略不僅能產生高品質候選解，也能支援多樣化，促進後續實驗或模擬的效果最大化。

核心方法與創新

GFlowNet（Flow Network-based Generative Network）提出將生成過程視為一個有向流網絡（Flow Network）問題，並將生成序列及其多條可能路徑映射成流量分配問題。這裡的「流」代表從初始狀態到目標狀態的「概率流量」，目標是讓各終態被選中生成的機率與其報酬值成正比。透過此流網絡視角，GFlowNet成功處理了一個核心挑戰，即不同生成路徑可能對應同一終態的情況——例如，不同順序加入原子也能形成同一分子結構。

方法的關鍵是將流量守恆條件（flow consistency）轉化為可優化的學習目標，類比於強化學習中的貝爾曼方程式（Bellman equation）和時序差分學習（Temporal Difference, TD）方法。具體而言，GFlowNet定義每個狀態到後繼狀態的流量，保證流入等於流出（包含起始點的流入和終止狀態的流出作為報酬），並優化此條件以學習生成策略。由於GFlowNet的學習目標保證了若達到全局最小化，則策略將嚴格按照報酬權重分佈進行採樣，使生成的分布精準調控。

這種通過流網絡視角建構的非迭代採樣策略，擺脫了MCMC長時間序列後向采樣的限制，也柔和了強化學習中最大化期望報酬帶來的模式崩潰問題。在訓練中，GFlowNet透過執行多條生成路徑並比較流量平衡狀態，反向調整策略參數，促進多模態、多樣性的解空間覆蓋。

主要實驗結果

為了驗證GFlowNet在多模態高維候選搜尋的效能，作者首先在合成簡單域上測試，該域中獎勵函數明顯表現多峰結構，傳統強化學習往往只收斂於其中最高峰，而GFlowNet則能平衡生成不同峰值區域的樣本，顯著提高多樣性分布的品質與覆蓋率。

更具挑戰性的，是在分子合成任務上的實驗。此處以生成高報酬的分子圖為目標，報酬根據分子的某些化學性質評定。相較於基於策略梯度算法和MCMC的基準方法，GFlowNet展現出更快的訓練收斂速度以及更高的生成分子多樣性。此效果尤其顯著於有限訓練資源下，強化了GFlowNet在有限查詢場景上的應用價值。

此外，作者還展示了理論證明，指出只要學習目標達到全局最小化，GFlowNet所對應的生成策略必然能精確采樣符合報酬分布的候選解，理論與實驗雙重保証了方法的可靠性。

對 AI 領域的深遠影響

GFlowNet的提出，在生成模型與強化學習交叉的領域中開闢了新天地。其以流網絡為核心的設計理念，引入了一種全新的建模視角，不再只追求報酬最大化的單一路徑解，而是突破成為能同時產生多樣化、高品質解的生成策略。此理念為結構化生成任務，如分子設計、材料科學甚至組合優化等，提供了一套理論嚴謹、實作高效的新方案。

此外，GFlowNet的成功鼓勵了對生成過程更細緻的狀態流量控制與平衡的研究，這不僅擴展了生成模型的能力邊界，也為將生成模型與連續控制、決策方法融合提供了範本。實務上，其非迭代且擴散多元的生成方式，對於加速科學發現、降低實驗成本有深遠助益。

綜觀來看，GFlowNet橋接了強化學習、生成模型與流網絡三大領域，突破傳統采樣與優化的侷限，同時保證理論與實務的結合，成為未來多樣性生成及黑盒優化領域的重要基石。對AI研究者和應用工程師而言，理解並擴展GFlowNet的技術與應用將是推動複雜系統智能生成技術革新的關鍵。

論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399