行有餘力則以學文: Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution 深度解讀

2026年4月10日星期五

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution 深度解讀

隨著生成式模型在影像、語音等連續數據領域取得突破，擴散模型（Diffusion Models）因其理論的嚴謹性與實務上的高性能，成為近年生成式 AI 的熱點。然而，當擴散模型應用於離散數據，如自然語言時，仍面臨重重挑戰。自然語言的離散特性與分布結構，讓傳統基於score matching（分數匹配）的擴散框架難以直接遷移並獲得理想結果。基於此，Lou、Meng 和 Ermon 在被 ICML 2024 選為最佳論文的《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》一文中，提出了突破性的理論與方法。

研究背景與動機

擴散模型的核心思想是逐步向數據分布加噪，然後學習逆向去噪過程，藉此生成高質量樣本。對於連續數據，score matching 這一理論基石能有效估計資料分布的梯度，促使模型成功捕捉複雜的數據結構。然而，離散空間中不連續的分布結構，使得score matching 的梯度資訊難以定義與估計。此外，目前自然語言生成主流仍是基於自回歸（autoregressive）模型，不僅推理速度慢，且生成品質受限於左到右的生成模式。

因此，本文的主要動機為：能否在離散數據上建構一套既符合擴散模型理論又能兼顧生成效率與品質的新方法？具體來說，作者希望擺脫傳統離散擴散模型依賴對score的困難估計，同時克服自回歸模型速度與靈活性的限制，進而實現高效且可控的自然語言生成。

核心方法與創新

作者提出的關鍵突破在於一種稱為 Score Entropy 的新損失函數，完美地將score matching概念引入離散空間。不同於連續空間score matching 直接估計分布的梯度（score），在離散空間中梯度無法適用。Score Entropy 方法巧妙地轉而估計資料分布之比（ratios of the data distribution），即對於兩點的相對概率作直接建模，繞過對梯度的依賴。

具體而言，作者設計了離散擴散過程的forward noising及reverse denoising策略，並透過score entropy損失函數優化模型。這損失函數是基於資訊理論中熵的概念，在理論上合理推廣score matching，使得模型能自動調整參數以最大化在離散空間中的生成「信度」。

此外，該方法允許在推理階段靈活調控生成策略，不必仰賴傳統自回歸模型常見的溫度退火（temperature scaling）等技巧。這不僅提升了生成的穩定性，更大幅降低了模型計算開銷。

主要實驗結果

論文中，作者將提出的 Score Entropy Discrete Diffusion 模型（簡稱 SEDD）應用於標準的語言建模任務，諸如WikiText-103等公開資料集。

生成質量提升：在相同模型規模（如參數數量）條件下，SEDD在困惑度（perplexity）指標上相較於之前的離散擴散模型降低了25%至75%，證明新損失函數對文本生成品質有顯著提升。
與自回歸模型競爭力：SEDD甚至能超越著名的 GPT-2，自回歸模型中表現良好的基線。此外，在不進行溫度退火等調節的情況下，SEDD生成的文本困惑度約為未退火 GPT-2 的6到8倍提升，顯示生成文本更為流暢且符合語言規律。
效率與靈活性： SEED 可以在推理時計算資源與生成品質間做權衡，能在相似品質下節省高達32倍的網絡評估次數。更重要的是，SEDD支持內嵌式的填空（controllable infilling），不侷限於單向生成，對於應用於多段落填充、語意補全等場景十分友好且高效。

對 AI 領域的深遠影響

本論文的貢獻，不僅是對離散數據生成模型理論的重大推進，也對實務應用產生廣泛影響：

理論突破：透過score entropy，擴散模型不再局限於連續空間。該方法建立了擴散框架與信息理論的橋樑，對未來在圖結構、離散符號系統等其他離散領域的生成模型設計提供了全新思路。
自然語言生成新范式：以往語言模型多依賴自回歸生成，速度與靈活性受限。SEDD 打破此限制，使拓展多方向生成、靈活填充、控制生成長度及風格成為可能。這在即時交互式AI助理、自動文本補全、多輪對話生成等場景有顯著價值。
提升效率與可控性：在生產環境與終端應用中，計算資源與生成速度為瓶頸。SEDD通過減少必要的模型評估次數，兼顧速度與質量，為輕量化部署和成本優化提供突破口。
後續研究潛力：score entropy的思想具備高度概括性，未來可擴展至多模態生成、強化學習中的策略估計、甚至圖生成等多樣的 AI 應用。此論文為離散生成模型擘劃了新路徑，成為後續相關研究的重要基石。

總結來說，Lou 等人在《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》一文中，不僅以創新性的score entropy方法解決了離散空間擴散建模的核心困難，更實驗驗證了其在自然語言生成上超越現有技術的卓越成效。這不僅推動生成模型理論向離散領域的自然延展，更為多種實際應用帶來突破性可能，是當前 AI 生成模型研究領域的里程碑作。

論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834