行有餘力則以學文: Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution 深度解讀

2026年4月4日星期六

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution 深度解讀

擁有強大生成能力的擴散模型（Diffusion Models）在影像生成等連續數據領域表現出色，近年更成為生成式 AI 的重要基石。然而，當我們將目光投向離散數據領域——尤其是自然語言處理（NLP）——這類模型卻一直未能展現同等水準。此篇由 Lou、Meng 與 Ermon 於 ICML 2024 榮獲最佳論文獎的《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》提供了一個理論與方法層面的突破，為離散擴散建模領域帶來嶄新視角與效能革新。

研究背景與動機

擴散模型的核心思想，是透過逐步加入噪聲將數據分布轉換成簡單的先驗分布，並學習逆向過程恢復原始數據。關鍵技術基於「得分匹配」（score matching），它利用數據分布的分數函數（log-density 的梯度）評估及建模連續空間。然而，離散結構如文本資料不具備連續微分性質，導致標準得分匹配理論不易直接套用。過去嘗試擴展擴散模型至離散領域的方法，如直接離散噪聲設計或透過隱變量建模，常面臨訓練不穩、生成品質參差或計算效率低落等問題。

基於此，論文著眼於如何在離散空間中重新詮釋與擴展得分匹配，找出兼具理論嚴謹與實務效能的新目標函數，從根本解決離散擴散模型的瓶頸。

核心方法與創新

作者提出「Score Entropy」損失，一種創新且自然延展得分匹配到離散空間的目標函數。所謂 Score Entropy，實質上是估計資料分布比率（ratio of the data distribution），轉化為計算資料分布與某個基準分布或噪聲分布之間的比率函數。

資料分布比率估計：與傳統利用分數函數（log-密度梯度）不同，Score Entropy 使用離散概率比率形式，避免對離散空間無法取微分的困境。
理論連結與自然延伸：作者證明該損失可看作在離散環境下的得分匹配泛化，保留了連續空間理論的架構。
模型架構整合：Score Entropy 無縫整合至離散擴散流程，允許使用同類擴散反演及採樣機制，具備可訓練、穩定及具高度表達力的優勢。
計算效率改善：該方法因不依賴昂貴的溫度調節或複雜的後處理技術，在推理時減少網路前向運算次數，達成加速生成。

主要實驗結果

論文針對標準語言建模任務進行評估，透過 Score Entropy Discrete Diffusion 模型（簡稱SEDD）展示顯著進步：

PPL（困惑度）大幅降低：SEDD 在相當模型規模下，相比現有離散擴散文本生成模型將困惑度降低 25% 至 75%，展現領先性能。
與自回歸模型的競爭力：SEDD 效能直逼主流自回歸語言模型，如 GPT-2，更甚者，未透過調溫（temperature annealing）等分布調節技巧，生成文本已比不經調整的 GPT-2 好 6 至 8 倍，突顯其生成文本的忠實度與穩定性。
推理效率優越：透過計算質量的折衷實驗，SEDD 可在保持文質量不降低的前提下，將網絡呼叫（forward passes）減少至 1/32，大幅提升推論速度與節省運算資源。
文本填充的靈活與可控性：不同於傳統的自回歸只能左到右生成，SEDD 支持多樣且精細的填充策略，生成結果在語義一致性及多樣性間取得良好平衡，且匹配甚至超越現行 nucleus sampling 的表現。

對 AI 領域的深遠影響

本論文不僅為離散數據擴散建模帶來理論與方法上的全新突破，更可能在生成式 AI 的未來路徑中扮演關鍵腳色。具體而言：

拓展擴散模型應用疆界：傳統擴散模型長期侷限於連續空間，而本文方法成功突破離散瓶頸，為語言生成、音樂生成、序列決策及其他離散結構生成任務鋪路。
平衡品質與效率：生成模型面臨效能與資源消耗間的挑戰，Score Entropy 方案展示出在不犧牲生成品質前提下大幅提升推理效率，對現實應用具高度吸引力。
新穎損失函數引領後續研究：Score Entropy 作為得分匹配的離散化推廣，帶來理論方法的新課題與視角，有望刺激後續演算法在其他非連續概率空間的廣泛探討與利用。
促進可控生成的實踐：許多生成應用中，使用者需要控制生成內容（如文本補全、特定格式生成），SEDD 在填充控制的靈活性突破，擴大了生成模型的實用場景。

總結而言，Lou 等人透過創新且嚴謹的理論架構，成功在離散生成問題中建立了一種全新且高效的擴散模型訓練策略，成為擴散模型向多元應用拓展的重要里程碑。該研究不僅提升了離散生成的生成質量及效率，也為生成模型理論的進階發展提供了豐富的養分，對 AI 生成模型的未來生態構築產生持久影響。

論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834