行有餘力則以學文: Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)

2026年4月30日星期四

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)

在現代人工智慧與機器學習領域，生成模型（Generative Models）扮演了不可或缺的角色，它們能夠從潛在空間中抽樣，產生多樣化且有意義的資料實例。尤其在材料科學、生物醫學領域如分子設計，快速且多樣性的候選解生成，不僅能加速新藥研發，也推動了許多黑盒函數最佳化的進展。然而，傳統的強化學習（RL）或最大期望回報的方法，往往只會收斂到單一最優解，難以涵蓋高度多樣性的高價值解集。為此，ICLR 2022 年發表的「Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)」提出一種全新的架構，成功同時兼顧多模式採樣的多樣性與效能，並獲得該會議「Outstanding Paper」的殊榮，展現其重要性與前瞻性。

研究背景與動機

在許多應用中，設計多樣性高、報酬值佳的解集合極為關鍵。以分子結構生成為例，傳統的序列決策過程（例如逐步加原子）中，只靠最大化回報或策略優化，通常最終會集中於單一解，忽略了其他同樣優秀但結構不同的分子。這種「模式崩潰」（mode collapse）問題限制了探索的廣度。

此外，模擬退火或馬爾可夫鏈蒙地卡羅（MCMC）等方法，雖然理論上可樣本目標分布，但通常計算成本高昂且多為局部探索，難以在有限查詢次數內達到有效探索。此外，黑盒函數優化設定中，往往希望在有限輪數中，每輪並行生成一批多樣化且高報酬的候選方案，這對傳統方法提出了嚴苛挑戰。

因此，本論文的核心挑戰是：如何學習一個隨機策略（policy），讓生成的結構或物件的抽樣機率正比於其給定的正報酬值，且能非迭代地快速抽樣，同時包容多樣的高報酬解？

核心方法與創新

作者提出的 GFlowNet（Generative Flow Network）方法，首創性地將生成過程形式化為「流網絡」（flow network）架構。這裡的「流」指的是構建從初始狀態（空結構）到終止狀態（完整生成物）的各種路徑所承載的概率流，其中多條路徑可能終止於同一狀態，如多種序列決策能最終構成同一化合物結構。

其核心理念來自於 Temporal Difference（TD）學習的一般思維，類比經典強化學習中 Bellman 方程的結構。GFlowNet 將生成策略視作使整個流網絡的流入與流出在每一狀態保持一致的學習目標。也就是說，在每一非終止狀態，流入量必須等於流出量，終止狀態則對應報酬值（轉為流量）。這種建構保證了生成決策策略的概率分布與目標報酬分布成正比。

訓練過程中，GFlowNet 不必像 MCMC 依賴慢速的局部隨機抽樣或迭代優化。相反，訓練好的生成策略可以直接非迭代地以單次前向過程抽樣，極大提升生成速度。此外，GFlowNet 支援多條不同路徑指向同一終點的情境，使得模型能更靈活的捕捉複雜空間，避免因路徑依賴導致的偏差。

從數學層面，作者證明任何該學習目標的全局極小點對應的策略，確實能從目標分布中抽樣，建立了穩健的理論基礎。這種方法是生成模型與強化學習方法間的一座橋樑，提供新的研究視角。

主要實驗結果

為驗證 GFlowNet 的效用，論文在兩個典型任務中進行了實驗：

多峰獎勵函數的簡單合成任務：此任務設計包含多個獨立高價值解的模式，傳統強化學習方法往往集中抽樣於其中一個峰值。GFlowNet 在保持較高回報的同時，成功覆蓋多重高報酬模式，展現其多樣性與全面性的優勢。
分子合成任務：分子生成需保持化學有效性且優化目標屬黑盒函數，極具挑戰。實驗中，GFlowNet 展現出比傳統基於最大化獎勵的 RL 方法更均衡、多樣的候選分子生成，同時生成速度快，證明其實務可用性。

此外，實驗還比較了 GFlowNet 與現有基準如 MCMC 及標準強化學習策略，證實 GFlowNet 在多樣性與效率上的明顯提升。這些優異結果彰顯其在實際科學應用及複雜生成任務中的潛力。

對 AI 領域的深遠影響

GFlowNet 不僅是一個針對單一問題提出的技巧，而是為生成模型與決策過程帶來新範式的創新框架。它巧妙結合了生成模型、強化學習以及流網絡理論，並首次從概率流的角度解決多樣性保留問題，彌補了傳統強化學習「最優解偏執」的缺陷。

長遠來看，GFlowNet 具備推廣於多個領域的重要潛力：

科學計算與新物質設計：加速有效候選物質的探索，提升新材料和藥物發現效率。
黑盒優化與決策系統：支持有限評估下多樣選擇的快速生成，促進實時決策與策略試驗。
生成模型研究：提供生成多模態分布的全新理論與實務工具，可能推動涉及結構性決策的領域突破。

最後，本論文推動的 GFlowNet 理論與實踐，為後續相關研究開拓了新的研究方向與方法論。隨著更多研究者介入，未來有望見證此框架於大型實際任務與系統中普及，帶來 AI 生成模型在多模式分布理解和利用上的革命。

整體而言，「Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation」代表生成模型與強化學習融合的里程碑，為實現高效、多樣、非迭代候選生成提供了堅實的理論基礎與實證驗證，無疑對未來 AI 研究與應用都具有深遠且積極的影響。

論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399