在人工智慧領域中,生成模型(Generative Models)持續扮演關鍵角色,尤其在結構化資料如分子設計、圖結構生成等問題上,如何高效且多樣化地產出高品質候選解,一直是學術與產業熱切關注的挑戰。傳統的強化學習(Reinforcement Learning, RL)或優化方法多專注於找到單一的最優解,然而在許多應用場景中,「多樣化」的候選解集合更具實務價值。例如新藥開發中,藥物分子的多樣性直接影響試驗成功率;又像黑盒函數優化限制操作不可多次迭代,需要一次產生大量、多元且高獎勵的候選解,這時候純粹最大化報酬的策略就顯得不理想。
此篇由Bengio 等人(ICLR 2022 Outstanding Paper)發表的論文《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》,針對上述問題提出嶄新的解決方案——以「流網路(Flow Network)」視角建構生成策略,稱為 GFlowNet(Generative Flow Network)。GFlowNet 的核心理念,是學習一個隨機政策(stochastic policy),讓生成一個物件的機率比例化於該物件的正獎勵(reward)值,並非只收斂於單一最大獎勵解,而是以概率分布的形式多樣化探索整體解空間。
研究背景與動機
在傳統強化學習或優化問題中,策略往往通過最大化累積獎勵的方式,最終趨向產生單一或少數幾個「最佳方案」。然而,面對高維且結構化的生成任務,例如分子圖設計,每個物件的獎勵函數通常存在多個極大值(modes),簡單追求最大值的解法不僅侷限在局部極大點,也缺乏多樣性。隨機採樣型模型(如馬可夫鏈蒙地卡羅,MCMC)雖能在理論上近似目標分佈,但運算成本高,且多數只能進行局部探測,生成速度慢,難以應付大規模候選數批次生成需求。
因此,如何設計一個非迭代(non-iterative)且能有效多樣化樣本生成的機制,成為迫切而重要的課題。GFlowNet 正是在此動機下提出,採用「流網路」這一看待生成過程為由多條路徑構成的流動結構,進而轉化成可以訓練的目標函數,使策略能夠學習整體分布的結構,而非只是追逐單一路徑的最高報酬。
核心方法與創新
GFlowNet 的核心突破在於將生成過程抽象為一個帶有流量守恆(flow consistency)約束的有向無環圖 (DAG)。在這個圖中,節點代表中間或最終生成狀態,邊則是生成動作。生成一個目標狀態對應從初始狀態到該狀態的一條或多條路徑。不同於傳統 RL 採用價值函數或策略函數最大化總報酬,GFlowNet 以「流量守恆方程」作為學習依據:對每個中間節點,流入的總量必須等於流出的總量,而終點的流量被賦予與其獎勵成正比的值。
具體而言,GFlowNet 將終端狀態的報酬視為該狀態流量的尺度,學習一組參數化政策,使得整個生成圖的路徑流量符合該報酬分佈。這個問題被形式化為一組流一致性條件,類似於 Bellman 方程在 Temporal Difference(TD)學習中的角色,通過將流一致性條件轉化為損失函數進行優化。這使得 GFlowNet 能夠同時考量多條導向同一生成結果的路徑,天然解決了非唯一路徑導致的「同一狀態多條生成路徑」的挑戰。
此外,GFlowNet 採用了批次訓練策略,能夠在訓練階段攤銷搜索成本,實現生成階段的高效采樣。相比 MCMC,GFlowNet 不需通過長時間鏈的依賴逐步採樣,而是直接以一次性前向生成產生候選解,兼具速度與多樣性。理論上,論文證明該方法在全局最小化流一致性目標時,所得策略確實以獎勵作為分布權重。
主要實驗結果
為驗證方法有效性,作者設計了多個具有多峰獎勵函數的合成環境,顯示 GFlowNet 能夠學習到全面涵蓋多個高獎勵區域的分布,比單純最大化報酬的 RL 方法在樣本多樣性上有明顯優勢。此外,在分子合成(molecule synthesis)任務中,GFlowNet 成功產生多樣且高品質的分子結構,體現了在複雜實際問題中的應用潛力。
實驗分析顯示,GFlowNet 不僅在生成結果的獎勵分佈上更為均衡,也大幅降低了探索陷入局部極值的風險。相較於傳統的強化學習方法或 MCMC,GFlowNet 在生成速度、樣本多樣性及對獎勵函數整體分布覆蓋率等面向均展現優越表現。
對 AI 領域的深遠影響
GFlowNet 首創性地將流網路理論導入生成模型訓練,為結構化數據的生成過程提供了一條全新思路。此方法打破了傳統 RL 單一最優解的框架限制,提出以分布匹配為目標的生成策略學習,大幅拓展了生成模型和強化學習的交叉領域,尤其在需要平衡探索多樣性與利用報酬的任務中極具價值。
此外,GFlowNet 理論基礎堅實,能整合多條生成路徑流量的概念,促使研究者重新思考生成過程的結構化表達與學習方式。該框架可擴展至多種應用場景,包括新藥分子設計、合成生物學資訊確率分布擬合、黑盒優化系統中的多樣化方案生成等,未來有望在 AI 驅動的科學發現、自動化設計等領域深度發揮。
總結來說,GFlowNet 代表了一種結合生成模型與強化學習的新型生成策略,以流網路為理論支柱,在實務中展示了生成多樣且高品質樣本的卓越能力。此研究不僅理論創新豐富,更具相當前瞻的應用價值,為生成模型朝向更靈活且多元的方向提供了堅實基石。
論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:
張貼留言