近年來,生成模型在人工智慧領域中獲得廣泛關注,尤其是在分子設計、結構生成等應用場景中,如何有效且多樣地生成高性能的候選樣本,成為一大挑戰。傳統強化學習(RL)與序列決策方法多以最大化期望回報為目標,容易導致生成結果趨於單一最優解,缺乏探索多元解空間的能力。面對這樣的問題,ICLR 2022 的傑出論文《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation(GFlowNet)》提出了一種基於「流網路」的新穎生成框架,旨在從序列決策過程中,以概率與給定的獎勵呈正比的方式生成對象,實現高效且多樣的候選生成。
研究背景與動機
在許多實際應用中,例如新藥分子設計、材料優化、以及黑盒函數優化等情境,往往需要在有限的查詢次數內,同時生成一批「多樣且具高獎勵」的候選方案。例如在分子設計中,單一的最高獎勵構型雖可滿足需求,但因實驗不確定性及多目標優化等因素,探索多個潛在好分子具有更高的價值及穩健性。傳統的馬可夫鏈蒙地卡羅(MCMC)方法雖可產生近似於給定能量函數(獎勵函數)的分佈,但其計算成本高且多半集中於局部探勘,難以同時兼顧效率與多樣性。此外,標準強化學習通常目標是尋找一條最優路徑,難以捕捉多條高獎勵路徑之間的差異與多樣性。
因此,本論文的核心問題可描述為:如何訓練一個生成策略(policy),其生成物件的機率分佈能「正比於」物件的正向獎勵值,並且有效反映多模態(multi-modal)的獎勵函數,實現非迭代(非疊代式搜尋)且快速的多樣高質候選生成?
核心方法與創新
本文提出的解決方案是稱作 GFlowNet(Generative Flow Network)的框架,將生成過程視為一個有向無環圖(DAG)上的流網路問題。生成過程本體為從起點狀態透過一連串動作(action)式決策,最終到達某個終端狀態(生成物件),這些終端狀態具有對應的獎勵值。GFlowNet 將所有通往同一終端狀態的多條路徑看作流網路中的流量,並設計一組「流量相容(flow consistency)」條件,確保每個中間狀態的進流量等於出流量,終端狀態的流量則與獎勵成正比。
此視角靈感來自時間差分學習(Temporal Difference, TD)中 Bellman 方程的定義,不同之處在於GFlowNet考慮整個動作序列構成多條路徑,這使得模型可以天然地捕捉在序列生成過程中存在的一對多結構(different trajectories can yield the same final state)。
具體來說,GFlowNet 設計了一套目標函數,透過優化「流量一致性損失函數」來逼近理想的流分布。只要能在訓練中達到此目標函數的全局極小值,即可證明所學策略能夠以獎勵作為權重產生對應的概率分佈。和傳統用最大化期望回報為目標的強化學習方法相比,GFlowNet 不會垂直收斂至單一最優解,而是呈現出多樣而且概率分布合理的生成行為。
此外,GFlowNet 框架本身具有明確的數學定義與理論保證,使得訓練收斂後策略確實符合「概率與獎勵成比例」的分佈要求。此方法結合生成模型的採樣效率與強化學習策略學習的靈活性,兼具理論完備性與實務可行性。
主要實驗結果
為驗證所提方法的有效性,作者在兩個層次的實驗中展示成果:
- 簡化多模態環境:在一個具有明顯多個獎勵峰值的合成環境中,GFlowNet 表現出比傳統單目標優化方法與 MCMC 更加多樣且均衡的樣本生成能力,能避免被單一峰值吸引導致採樣單一解決方案的問題。
- 分子結構設計任務:在分子圖生成的實驗中,GFlowNet 不僅有效生成多樣的高分子結構,且生成樣本的化學合理性與多樣性均優於多項對比基線。此結果顯示 GFlowNet 可以在化學空間中尋找多個潛在優化解,為新藥物設計帶來潛在突破。
此外,訓練與生成的時間效率也遠勝於傳統 MCMC 探索方法,使之適合應用於需快速產生大批多樣候選樣本的工業級流程。
對 AI 領域的深遠影響
GFlowNet 引入的流網路式生成視角,為生成模型尤其是在強化學習與結構生成交叉領域提供了嶄新思路。它突破了過去強化學習及生成模型往往只追求單一最優解的限制,使得設計與優化多模態解空間成為可能,體現了「探索-生成」的良好平衡。
此外,該方法在多樣性採樣的理論保證與實務成功將促使更多研究者關注如何將能量函數轉換為高效可用的生成分布,進而催生更多批量採樣、分子設計、材料科學等領域的應用。GFlowNet 也有望推動後續在更大規模環境下結合深度神經網路進行端到端訓練,提升模型適應力與擴展性。
總結來說,GFlowNet 不僅提供了一種全新的生成模型訓練及生成框架,更在理論、算法與應用方面都提出了具突破性的貢獻,因而在 ICLR 2022 榮獲傑出論文獎,是生成模型與強化學習領域中里程碑式的代表作。
論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:
張貼留言