行有餘力則以學文: Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution 深度簡介

2026年5月30日星期六

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution 深度簡介

近年來，擴散模型（Diffusion Models）在圖像生成、音頻生成等連續資料領域展現了卓越的表現，成為生成式模型的一大突破。然而，當應用到離散資料，尤其是自然語言文字時，傳統的擴散模型卻遭遇了顯著挑戰。這主要源於擴散模型的核心理論──分數匹配（Score Matching）──天然適用於連續空間，難以直接套用於離散結構，使得離散擴散模型的表現一直未能與自回歸（autoregressive）模型抗衡。

在此背景下，Lou、Meng 與 Ermon 於 ICML 2024 發表了題為《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》的論文，榮獲 Best Paper 獎。該研究突破傳統框架，提出了一種全新的損失函數與方法，名為「分數熵」（Score Entropy），成功使擴散模型在離散資料領域，特別是自然語言生成任務上，取得了革命性的進展。

研究背景與動機

擴散模型透過逐步加入噪聲、然後反向去噪的過程實現生成，理論基礎源自於隨機微分方程及分數匹配技術。在連續資料中，通常透過估計資料分布的梯度（score function）來達成有效學習。然而，語言等離散資料本質上是非連續的，缺乏可微的空間結構，使得分數匹配的理論和演算法延伸困難。

目前為止，離散擴散模型的設計往往依賴對標的分布的其他密度估計方法或特定的近似策略，但大多數仍落後於自回歸模型，如 GPT 系列的性能，且生成品質尚有不足。此外，自回歸模型雖在語言生成中有良好表現，但含有生成速度慢（需順序推斷）及缺乏靈活性（如難以直接實現控制生成）的缺點。

因此，有無可能設計一套理論上嚴謹、計算可行，且性能優異的擴散模型框架，專門對離散分布做建模，成為本論文工作的主要驅動力。

核心方法與創新

論文核心貢獻在於提出「分數熵損失」（Score Entropy Loss），成功將分數匹配理論自然延伸到離散標的分布上。具體來說，作者觀察到可直接學習資料分布的比率（ratios of the data distribution），而非直接估計連續的分布梯度，這使得方法天然適合在離散空間中定義與優化。

分數熵的設計理念是引入熵的觀點，利用分布比率結合整體資訊量度，避免了過去離散擴散模型在估計中存在的困難與不穩定性。這套損失函數不僅理論上有堅實的基礎，且能無縫整合至離散擴散框架中，大幅提升穩定性與性能。

基於此新損失，作者提出 Score Entropy Discrete Diffusion（SEDD）模型架構，並設計相關的訓練與生成演算法，使其可用於標準的語言建模任務。同時，SEDD 保留擴散模型柔軟的生成方式，支援非自回歸且並行化的生成機制，解決自回歸模型的速度瓶頸。

主要實驗結果

研究團隊在多個標準語言建模數據集上嚴格驗證 SEDD 的效果。實驗結果顯示：

在相近模型規模條件下，SEDD 在語言模型的困惑度（perplexity）指標上相較於現有的離散擴散模型減少 25% 至 75%，展現出顯著的性能提升。
SEDD 與自回歸模型（如 GPT-2）競爭力強，甚至在無需複雜分布退火技巧（temperature scaling）的條件下，生成文本品質優於未退火的 GPT-2，困惑度降低約 6 至 8 倍。
計算效率方面，SEDD 可在約 32 倍較少的網路評估次數下達成與 GPT-2 相似的生成質量，顯著提升生成速度。
生成控制能力優異，支援文本〈infill〉（補全）任務，且在保持生成品質的同時，提供比純左到右提示更靈活的生成策略，滿足更廣泛的應用需求。

整體而言，SEDD 不僅在準確度上有突破，在速度與控制性上也展現出令人驚豔的改進，證明了該方法的實用和前瞻性。

對 AI 領域的深遠影響

本論文的突破為離散數據的生成式建模帶來全新視野。過去離散擴散模型難以匹敵自回歸模型的瓶頸，在此被成功打破，展現了擴散模型在自然語言處理（NLP）等離散序列任務上的巨大潛力。

具體影響包括：

理論創新：提出的分數熵損失成為連續分數匹配向離散空間延伸的關鍵理論橋樑，未來可作為更多離散生成任務的理論基礎。
模型創新：SEDD 改變了語言生成的范式，打破順序生成限制，提供更快且更靈活的生成方式，為低延遲應用與多樣化控制生成策略開闢新路。
應用潛力：在自然語言生成、程式碼生成、文本修補、對話系統等多個場景具高度實用價值，且未來與大型預訓練模型結合，可能帶來更突破性的績效。
促進更多跨領域擴散模型研究：該方法展示了解決離散問題的思路，將啟發圖結構、分子結構等其他離散數據領域的擴散模型設計，推動跨領域生成模型的進步。

總結而言，Lou 等人於 ICML 2024 發表的這篇著作，是擴散模型領域一項具里程碑意義的研究，解決了長期困擾離散生成建模的難題，不僅提升了語言模型的基準性能，也重新定義了未來離散資料生成式 AI 的研究方向與應用前景。對於具基礎 AI 理解的工程師和研究生來說，深入把握這篇論文的理論架構與實驗設計，將有助於開展創新性研究與高效應用開發。

論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834