隨著生成模型在圖像、語音及其他多媒體領域取得突破性進展,擴散概率模型(Diffusion Probabilistic Models, DPMs)因其優秀的生成品質和理論基礎而成為近年研究的焦點。然而,基於 DPM 的推理過程往往要求數千個時間步的迭代,使得推論成本極高且耗時。此限制嚴重影響了 DPM 在實際應用中的普及與效率提升。
研究背景與動機
DPM 的生成過程是透過逐步「去噪」的逆向擴散過程實現,由初始的純噪音逐漸還原成目標數據。在每個時間步中,模型需估計逆向過程的均值與變異數(variance)以完成採樣。目前多數方法在推理階段對變異數的設置要麼採用預先固定的策略(如恆定或線性調整),要麼透過複雜的網絡結構來學習,但這些方案通常無法保證最優解,且增加了額外訓練負擔。
因此,研究團隊希望突破傳統框架,尋求一種「訓練自由」且理論嚴謹的方法,直接從已訓練好的得分模型(score-based model)中解析性地估計最優的逆向變異數,藉此優化推理過程,提高推斷效率與生成品質。
核心方法與創新
Analytic-DPM 的核心貢獻在於推導出擴散模型逆向過程中最優變異數的解析解,並將該解析解表達為與時間步得分函數(score function)相關的形式。換言之,論文證明了:
- 逆向變異數的最優值與該時間步的得分函數是有明確解析關係的;
- 同時,對應的最優 KL 散度(Kullback-Leibler divergence)也可透過解析公式獲得。
此創新理論結果,大大突破過去只能以啟發式或數值近似估計變異數的局限。
基於此,團隊提出一套訓練自由的推理框架:
- 利用蒙地卡羅(Monte Carlo)方法,結合已訓練好的得分模型,估計解析形式中所需的變數;
- 為避免得分網路預測誤差導致估計偏差,論文進一步推導最優變異數的上下界,並運用「截斷」(clipping)策略將估計值限定在此界限內,提升結果的穩健性與精度。
這樣的設計不僅擺脫了傳統需額外訓練變異數預測器的瓶頸,也使得推理速度大幅提升,成為現存 DPM 推論優化的新標竿。
主要實驗結果
論文在多個標準數據集(如 CIFAR-10、ImageNet 等)上的多種 DPM 架構中驗證 Analytic-DPM 的效果,重點包括:
- 生成質量提升:以負對數似然(NLL)作為衡量指標,Analytic-DPM 在多個實驗中均優於傳統固定變異數及先前的數據驅動估計方法,說明其生成分布更貼近真實數據分佈。
- 推理速度加速:由於無需再往回額外訓練變異數網絡,推理過程簡化且可以透過解析結果節省大量計算時間,實驗顯示速度提升達 20 倍至 80 倍,顯著降低了擴散模型的使用門檻。
- 生成樣本視覺效果:人類評測及定量指標(如 FID 分數)皆顯示 Analytic-DPM 生成的圖片更加清晰、細節更豐富,品質趨近甚至超越先前方法。
此外,團隊也透過消融實驗證明上下界截斷策略對抑制估計偏差的重要性,這使得方法在不同數據集與模型配置下保持穩定表現。
對 AI 領域的深遠影響
此次工作不僅為擴散模型的逆向推理過程提供了嚴謹且優化的理論基礎,也在實務層面大幅提升了擴散模型的應用價值。未來研究與工業界可用此框架:
- 減少訓練與推理成本,降低硬體資源及部署門檻,使得高品質生成模型更易被廣泛採用;
- 以解析解替代黑盒式或啟發式調整,強化生成過程的解釋性與理論可追溯性,推動生成模型向更可控、可信的方向發展;
- 激發關於擴散模型逆向過程其它參數估計的後續研究,促使此領域在數學理論與工程實踐間取得更緊密結合。
總結而言,Analytic-DPM 不僅精準指出擴散模型推理中最優變異數的解析表達,並提出一種高效、無需額外訓練的估計策略,使得生成模型能在保持優異樣本品質的同時,大幅降低運算成本及推理時間,為擴散模型的理論與應用帶來里程碑式的突破。
論文資訊
📄 Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models
👥 Bao, Li, Zhu, Zhang
🏆 ICLR 2022 · Outstanding Paper
🔗 arxiv.org/abs/2201.06503
