隨著生成模型及強化學習在人工智慧領域的蓬勃發展,如何高效而多樣地生成具備高品質與高回報的樣本,一直是研究重點。傳統的強化學習演算法往往以尋找「最大回報的單一路徑」為目標,導致生成結果多呈現單一模態,忽略了對多樣性與全面性的需求。這對於分子設計、結構優化等任務特別不利,因為在有限的評估資源下,探索多元且高品質解決方案極其重要。加拿大蒙特婁大學與Deepmind的Bengio等學者在2022年 ICLR 發表了具突破性的論文《Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)》,並榮獲「Outstanding Paper」獎項,本文將就此做深入解析。
研究背景與動機
多數自動生成系統問題通常定義為尋找最大化報酬(reward)的策略,透過序列決策方式,逐步產生對應的物件(例如:分子結構)。然而,當環境提供的是黑盒函數評估且評估成本昂貴時,如分子藥品分子設計,單純強調最大回報往往只能找到一種或少量局部最佳解。實務上,我們希望得到一組多樣且同時具備高報酬的候選解,以增進後續的選擇空間與探索潛力。此時,傳統基於馬爾可夫鏈蒙地卡羅(MCMC)方法雖能近似目標能量函數的分布,但其本質是當前狀態附近的局部跳躍,既耗時又容易陷入單一模態,無法兼顧效率與多模態探索。
本論文的核心動機是提出一種「非迭代且能產生多元候選解」的生成框架,希望以一套可訓練的策略,直接模擬出物件的生成分布,且此分布與回報成比例,簡化且加速多模式樣本產生過程。這不僅有助於平行批次中探索多樣方案,也能在有限次輪詢中快速找到多個高效解答。
核心方法與創新
GFlowNet 的關鍵創新在於使用流量網路(Flow Network)理論來建構一種生成策略。其核心觀念是將從初始狀態到終端物件狀態的多條生成路徑視為流量的多條通路,並要求流量守恆。簡言之,每條路徑的「流量」反映其生成物件的「概率權重」,而所有通向同一終端狀態的路徑流量總和需匹配該狀態的正比例回報值。
具體而言,GFlowNet 將生成問題視為在有向無環圖(DAG)中從起點流向終點的流問題。不同於傳統序列生成,GFlowNet 允許多條生成路徑對應同一終端物件,這有效解決了分子等結構的生成中不同步驟組合導致同一分子終態的問題。藉由構建流量一致性方程,GFlowNet 將生成策略的學習轉化為流量守恆的優化目標,這類似於強化學習中的 Bellman 方程,但更多借鑑於 Temporal Difference (TD) 學習框架。
學習目標即是將路徑流量調整到與物件回報成正比,保證整體策略以正確機率分布採樣結束狀態。這項目標在全局最小值時,理論證明策略分布會收斂於期望的回報正比分布,實現非貪婪且多樣的樣本生成。
主要實驗結果
論文在兩個主要實驗場景展示 GFlowNet 的效果:
- 多模態獎勵函數領域:透過一個簡化的合成環境,包含多個高獎勵峰值,展現傳統強化學習傾向集中在單一模式的缺陷。GFlowNet 則成功學習到多個分布峰,能多樣性地抽樣出多種高獎勵狀態,驗證其探索多樣性的能力。
- 分子合成任務:在分子結構生成中,因多條路徑能產生相同分子結構,GFlowNet 透過流量一致性機制,有效學習出生成策略。相較於標準強化學習及採樣方法,GFlowNet 不只在保證高回報的同時,擁有更多多樣結構,提升了分子空間探索效率及廣度。
從實驗中也觀察到,GFlowNet 訓練收斂速度快且生成過程可並行化,彰顯其對實際應用的吸引力。該文章同時與經典的 MCMC 及強化學習基準進行比較,充分展現其在樣本多樣性與效率間的良好平衡。
對 AI 領域的深遠影響
GFlowNet 為 AI 生成模型領域帶來了全新的視角與工具。首先,它突破傳統生成模型「單一貪婪解」的瓶頸,導入多路徑流量守恆概念,理論基礎紮實且兼具實務可行性。這種將強化學習與流網結合的思路,為需要多元解決方案的優化問題帶來新演算法途徑,影響深遠。
其潛在應用範圍十分廣泛,除了藥物分子設計外,還可用於結構優化、組合設計、機器創作及智能探索等任務中。特別是在評估成本高昂,探索空間龐大的問題域,GFlowNet 提出的思路提供了高效多樣樣本產生的有力解法。
此外,GFlowNet 啟發了學界對生成過程的理解,將強化學習的價值函數視為流量一致性約束的新型激勵,促進未來在策略學習、能量模型與生成對抗網絡等方向的進一步融合與創新。它結合了概率生成和強化學習的優點,有助於推動可解釋且控制性強的生成模型研發。
總結
總結來說,Bengio等人提出的 GFlowNet 框架,是在生成模型與強化學習交會處的一項重大突破。該方法成功解決了需生成多樣且高回報候選物件的難題,通過構建流網路與流量守恆學習目標,保證了生成分布與獎勵成正比。實驗充分證明了其在多模態複雜環境中的優越表現與高效實用性。其理論與方法創新,帶來了多樣性生成問題的新解法,對 AI 設計優化與智能生成領域具有長遠且深刻的影響。
論文資訊
📄 Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation (GFlowNet)
👥 Bengio, Jain, Korablyov, Precup, Bengio
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2106.04399

沒有留言:
張貼留言