2026年6月18日 星期四

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet) - ICLR 2022 Outstanding Paper 深度簡介

在人工智慧和機器學習領域中,生成模型的任務通常是學習如何根據資料分布,生成符合某種統計特性的樣本。傳統的生成策略多半聚焦於最大化回報(return maximization),期望找到最優解。然而在許多實際應用中,我們更希望得到一組多樣且高品質的候選解,而非只有一個局部最優解。特別是在分子設計或黑盒函數優化等領域,單一的解並不能充分反映問題空間的多樣性,且多樣化的樣本也有助於後續的篩選與優化流程。這正是Bengio及其團隊在2022年ICLR發表的傑出論文《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》所關注的問題。

研究背景與動機

傳統的增強學習方法往往著重於學習一個策略來最大化某個回報函數(reward function),例如DQN或Policy Gradient方法。但在許多應用裡,我們真正需要的是能夠產生服從某種分布(reward加權分布),而非簡單地尋找單一路徑上的最大回報序列。舉例來說,假設有一個黑盒函數評價一個化合物的藥效,我們希望在有限次的查詢中產生多個高潛力且多樣化的化合物結構作為候選,降低重覆性並提升整體探索效率。經典方法如MCMC(馬可夫鏈蒙地卡羅)能夠從函數誘導的能量分布抽樣,但其計算成本高昂且容易陷入局部探索。

更重要的是,因為許多目標結構可由多條不同生成路徑(action sequence)產生,因此採用一般序列決策方式不易處理答案多對一的情況。論文團隊在此提出新穎的視角,將生成過程建模為「流網路」(flow network),從而能同時考慮多條路徑對同一終止狀態的貢獻,大幅提升多樣性且保持正確的目標分布。

核心方法與創新

本論文核心提出的GFlowNet(Flow Network based Generative Models)方法,核心概念在於強調生成過程不再是一條線性的序列策略,而是一個有向無環圖(DAG),生成任何目標狀態都可視為流經該網路的「流量」。每條路徑代表一系列的動作序列,最終導致一個生成結果。

具體而言,作者將目標希望的抽樣分布定義為目標結構 x 的概率 P(x) 與其對應的正獎勵 R(x) 成正比。透過定義流量概念,推導出「流一致性方程」(flow consistency equations),這些方程強制網路中所有中間狀態的流入等於流出,確保生成過程符合目標分布。

在學習過程中,GFlowNet的訓練目標即是將網路的參數調整至令流一致性方程達成收斂,而這也呼應強化學習中的時間差分(Temporal Difference, TD)學習思想:即是將經典的貝爾曼方程轉換為生成流程中的流守恒條件。

相較於傳統強化學習偏向貪婪尋找最大化回報路徑,GFlowNet以概率方式學習一個隨機策略,使得從該策略抽樣的樣本分布與獎勵函數成正比,進而鼓勵在多樣化解空間中探索高獎勵區域。這對多模態(multi-modal)回報函數的問題尤為關鍵,因為它能避免陷入單一模式。

此外,GFlowNet框架天然支持「答案的多路徑(multi-path)」問題,允許多種生成序列映射到同一終端狀態,這是傳統序列生成手法不易處理的難題。作者還提出了多種學習目標的實現方式,例如基於flow matching和detailed balance的損失函數,穩定訓練生成策略。

主要實驗結果

論文中團隊首先在一個多模態簡單空間(multi-modal reward landscape)進行實驗,顯示GFlowNet能有效學習到多樣且覆蓋不同高獎勵模態的抽樣策略,相較於強化學習及MCMC方法,GFlowNet能生成更多不同類型的高價值樣本,展現更好的探索能力與樣本多樣性。

接著,作者將方法應用至分子合成任務,這是一個典型的高維結構生成問題,狀態空間龐大且多條生成路徑易導致訓練難度升高。實驗結果證明GFlowNet在保持樣本質量的同時,較傳統強化學習方法能產生更多結構差異顯著的分子,具備更好的多樣性和潛在應用價值。

此外,GFlowNet的生成速度遠快於MCMC,一旦訓練完成,能馬上採樣大量多樣解,適合需大量多元候選的實務場景。

對 AI 領域的深遠影響

GFlowNet的提出,從理論與實踐層面都帶來了重要突破。它兼具生成模型與增強學習的優點,以流網路的觀點解決了傳統策略學習中無法妥善處理多解多路徑問題的瓶頸,為生成多樣化高價值解答提供一條全新的路徑。

這項研究推動了結合生成模型與強化學習的交叉研究,促使學術界與產業界重新思考如何設計能兼顧多樣性與效能的生成策略,特別是在科學計算、材料設計、生物醫藥等多樣性極為重要的應用領域。

未來,GFlowNet有望進一步與深度神經網路結合,擴展至更複雜的生成任務,甚至融入主動學習、貝葉斯優化等框架中,成為多模態生成與黑盒優化的重要工具。此外,該方法對於強化學習理論的拓展(如多路徑策略的收斂保證)也提供了新視角,將激發後續在多樣化策略學習、能量模型轉換及樣本效率上的研究熱潮。

總結而言,GFlowNet為解決多模式分布生成問題提供了理論嚴謹且實用的解決方案,成功擴大了生成模型的應用範疇,彰顯本研究在AI生成模型及強化學習領域的重要地位與長遠影響。


論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:

張貼留言