2026年4月24日 星期五

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet) 深度解析

在人工智慧與機器學習的領域中,生成多樣性且具高品質的候選解是許多應用的核心挑戰,特別是像分子設計、結構優化等黑盒函數最佳化問題。傳統的強化學習(Reinforcement Learning, RL)與最大化報酬(return maximization)方法,往往著重於尋找單一最優解或高報酬路徑,而忽略了在實務上常需獲取多種多樣且高效能解的需求。由此出發,Bengio 等人在 2022 年 ICLR 會議發表的論文《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》提出了一種基於流網路(flow network)的新型生成模型,並獲得 Outstanding Paper 的肯定。

研究背景與動機

很多應用情境例如藥物分子設計、材料科學,需同時探索眾多潛在候選解,而這些候選解的「多樣性」及「高報酬」同樣重要。典型的強化學習策略旨在最大化期望報酬,導致模型可能集中於生成單一最佳路徑,缺乏對其他高報酬但不同解的探索能力。此外,一些先前方法如馬可夫鏈蒙地卡羅(MCMC)雖能從一個能量函數(energy function)抽取樣本分佈,但計算開銷高昂且侷限於局部區域搜尋,難以高效擴展到複雜生成空間。

因此,核心問題在於如何訓練一個隨機策略(policy),使其產生的物件抽樣機率與該物件的目標正報酬成正比。換言之,我們想近似一個能量分佈對應的生成分佈,但又不希望犧牲多樣性或耗費過多計算資源。

核心方法與創新

本論文提出的 GFlowNet 以「生成過程可視為在狀態-動作空間中的流網路」為核心概念,將序列決策問題轉換成一個流量守恆(flow consistency)問題。具體來說,生成一個最終物件(如分子圖)是一條從初始狀態到終端狀態的多步軌跡,而該物件可能有多條不同軌跡產生(例如不同添加原子的序列構成同一分子)。GFlowNet 利用流網路方法避免像傳統強化學習容易陷入單壟斷解的困境,能夠學習到一個策略,使抽樣機率正比於報酬函數。

他們的創新之處在於:將多條生成軌跡視為流量,構建一組嚴格的流量守恆方程(類似貝爾曼方程),並將這些方程轉換成訓練損失函數。透過強化學習中Temporal Difference (TD)學習的方法,GFlowNet 能在訓練中穩健逼近理想的概率分佈。論文中進一步證明,任何全局最小化其目標函數的策略,都必能產生與報酬正比的生成分布。

這種架構具備幾項關鍵優勢:

  • 非迭代且高效的樣本生成:訓練完成後,生成過程只需前向抽樣一次,快速且低延遲。
  • 高多樣性:因為策略擴展整體流量而非單一路徑,能捕捉多模態(multi-modal)分布。
  • 可處理多條路徑對應同一狀態的情況,增加生成空間的靈活性。

主要實驗結果

論文中,在一個設計有多個回報峰值的合成域(simple synthetic domain)驗證了 GFlowNet 在同時提供高報酬樣本、多模態覆蓋能力上的明顯優勢。與傳統強化學習方法相比,GFlowNet 可在各峰值均勻抽樣,而非集中在單一峰值附近。

更有說服力的是在分子合成(molecular synthesis)任務中的應用。基於目標化合物性質的報酬函數,GFlowNet 展現出生成結構多樣且報酬優良的分子候選列表,優於傳統基於強化學習或MCMC的生成方法。例如在生成潛在藥物候選上,提高了候選分子的覆蓋率與品質,顯示此方法在實際科研與工業問題中具備潛力。

對 AI 領域的深遠影響

GFlowNet 的提出,拓展了生成建模與強化學習的疆界,提供一套結合「機率流量理論」與「序列決策」的新框架。這不僅解決了過往優化策略僅追求單一最優解的問題,也使得生成模型能更自然、有效地反映多峰且複雜的目標分布。

在多樣化生成需求日益增長的時代,GFlowNet 為化學、材料科學、組合優化等領域提供了有力的工具,也激發後續研究思考如何更合理地利用結構信息與流量守恆概念,設計更強健且解譯性高的生成模型。

此外,透過引入 Temporal Difference 類似於強化學習的技術至生成過程,GFlowNet 也促進了強化學習、生成建模與能量基模型間的跨領域整合,未來在非監督學習、決策制定、抽樣演算法的設計中,具備廣泛應用前景。

總結

《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》是一項理論與實務兼具的傑出工作。它成功建構了用流網路描述序列生成問題的數學框架,提出以流量守恆化為損失函數進行訓練的創新方法,從而能以非迭代方式快速且多樣地生成高報酬候選物件。論文中詳實的數學證明與多樣驗證實驗奠定了此方法的可信度與實用性。

總體而言,GFlowNet 不只是提供了一種生成多樣解的新機制,更開啟了深度生成建模與強化學習之間新的交叉路徑,對促進人工智慧技術在複雜設計與探索任務中的突破,具有里程碑式的意義。


論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:

張貼留言