2026年4月11日 星期六

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet) 深度解說

在生成式模型和強化學習領域,如何有效地產生多樣且高品質的候選解,是一個核心且具挑戰性的問題。傳統的強化學習往往專注於尋找一條最大化獎勵的單一路徑,這導致模型在多模態任務中可能只專注於一個最佳解,缺乏足夠的多樣性。此情況在分子設計、藥物組合優化、黑盒函數優化等應用場景中尤其明顯,因為這些場景中不僅需要高獎勵的結果,更需要多樣化的候選方案以增加探索和發現潛在優化解的機率,並降低過度集中於單一解所造成的風險與偏誤。

來自ICLR 2022的論文《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》由乾淨且系統性的數學架構,提出一種名為GFlowNet (Generative Flow Network) 的新穎生成模型架構,巧妙結合流網路(flow network)的概念與強化學習中的Temporal Difference (TD)學習方法,打破傳統單路徑取樣的局限,實現從行動序列隨機生成對象(例如分子圖)時,生成物件的機率與其正獎勵值呈現正比(proportional)分布,進而自然生成多樣且獲獎度高的候選。

研究背景與動機

在傳統的強化學習框架中,策略(policy)通常透過最大化期望回報(return)來尋找最佳行動序列,這使得學習過程最終會集中於少數幾條甚至單一路徑。然而,在許多實務場景中,我們希望探索獎勵函數多模態的整體分佈,進而抽樣出多樣化但仍保持高獎勵的解,而非僅是一條單一最優路徑。如分子藥物設計,科學家不單希望找到一款效果最佳的分子,更想探索結構多樣的分子集合,以提升成功機率並掌控風險。

現有方法如馬可夫鏈蒙地卡羅(MCMC)能夠做到接近能量基分布的抽樣,但通常存在計算成本高昂、探索範圍受限於局部附近區域等缺點。為此,作者提出以生成模型為基底的策略學習方式,透過訓練一個生成策略來擴大探索範圍,並在測試階段快速生成候選。

核心方法與創新點

GFlowNet的關鍵在於重新定義從起點逐步生成對象的過程為一個帶有流量約束的有向圖(flow network),其中「流量」代表生成路徑的統計權重,流量在節點與邊之間遵守流量守恆方程(flow consistency)。最終狀態(終止狀態)上收到的流量與該狀態的獎勵值成比例。

更技術細節上,GFlowNet架構包含以下幾點創新:

  • 流網路觀點:將從初始空狀態到終止狀態的多條策略路徑視為整體的流網絡,解決了傳統生成模型中不同路徑可能對同一最終狀態產生貢獻卻難以整合的問題。
  • 流量守恆約束為學習目標:作者用類似貝爾曼(Bellman)方程的流量守恆條件,設計一組調和不同路徑流量平衡的目標函數,確保整個生成網路流量一致,對應其終止狀態的獎勵分布。
  • 非迭代的產生過程:不同於MCMC等基於迭代局部移動的方法,GFlowNet藉由策略直接生成對象,使得生成過程不需長時間鏈式更新,可快速產生多樣解。
  • 借鑒TD學習與能量基方法:將強化學習中的Temporal Difference learning應用於流量守恆的約束優化,這是將強化學習理論創新應用於生成模型的一大突破。

綜合而言,GFlowNet透過將生成過程視為流量平衡問題,並運用流量守恆原則設計學習目標,有效地讓策略學習到生成「隨機性與獎勵間成比例」的分布,從而實現多樣化且高品質的樣本生成。

主要實驗結果

論文展示了GFlowNet在多模態獎勵函數及分子合成任務中的顯著優勢:

  • 在一個合成任務中,該任務的獎勵函數存在多個模式,傳統強化學習策略往往陷入單一模式,而GFlowNet成功抽樣出多個高獎勵模式,展現優異的多樣性與回報分布一致性。
  • 在分子生成任務,GFlowNet相比於其他基準方法(如MCMC及特定基於策略梯度的方法),不僅生成速度快,且候選分子在結構和獎勵(例如理化性質)上展現更大多樣性,這對於實際材料科學與藥物發現極具潛力價值。
  • 理論證明方面,作者證明了只要達到所設計的流量守恆目標函數的全局最小值,所得到的策略將正確地以獎勵成比例的分布抽樣最終狀態,提供理論上的嚴謹保障。

對AI領域的深遠影響

GFlowNet的提出為生成模型與強化學習的融合開辟了全新方向,尤其在需要多樣性生成的應用場景如分子設計、結構優化、推薦系統等領域,帶來以下重要影響:

  • 多樣性探索的理論基礎:GFlowNet提供一種機率分布約束的新思路,突破傳統「最大回報=最佳解」的限制,強化探索與開發多模態解空間的能力。
  • 高效生成策略學習:策略的非迭代生成機制大幅縮短生成時間,適用於對速度和效率有極高要求的實務系統。
  • 促進交叉學科發展:GFlowNet結合流網路、強化學習、能量基方法的設計啟發了跨領域理論與算法創新,促使AI在化學、生物、物理等自然科學應用中達成突破。
  • 開啟新型控制與規劃問題解決策略:將生成問題視為流量守恆的結構化規劃,未來有望應用於複雜決策、分布式系統控制等更多AI核心技術範圍。

總結而言,GFlowNet以其原創性的流量網絡構造與強化學習目標函數設計,不僅克服了傳統生成方法在探索多樣解空間上的困難,還實現了高效且理論保障的生成策略,對機器學習與生成模型領域帶來深刻且持久的啟發。隨著該技術持續發展,預期未來各種多模態生成與優化任務將因其提升探索效率與結果質量而獲益,進一步推動科學發現和工業創新。


論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:

張貼留言