行有餘力則以學文: Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

2026年4月17日星期五

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

在近年生成模型領域中，擴散模型（Diffusion Models）因其在圖像生成等連續數據任務上的卓越表現，引發廣泛關注與研究熱潮。然而，這類模型在離散數據領域，尤其是自然語言處理上卻未能展現同等成效。這背後的關鍵挑戰在於傳統擴散模型依賴於「分數匹配(score matching)」理論，此理論基礎多用於連續空間，其擴展至離散空間時，無論在理論還是實務上均遭遇瓶頸，造成模型性能與穩定性無法達成突破，限制了其在文字、序列資料等離散數據上的應用潛力。

針對此一挑戰，ICML 2024 榮獲最佳論文的「Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution」（Lou, Meng, Ermon）提出了一種全新的方法論——利用「分數熵（Score Entropy）」作為離散空間擴散模型的核心損失函數，成功地將分數匹配理論自然延伸到離散領域，並以此為基礎構建出「Score Entropy Discrete Diffusion」模型（簡稱 SEDD）。該工作不僅在理論上填補離散擴散建模的空白，也在實驗上取得突破性成果，為離散數據的生成建模開啟新篇章。

研究背景與動機

擴散模型透過逐步引入噪聲到數據並學習如何反向去噪，成功捕捉數據分布，是當下最具表現力的生成模型之一，尤其在圖像生成中表現優異。核心技術「分數匹配」透過估計資料分布對數密度梯度，實現有效的生成過程。不過，離散數據（如文字、分類標籤、基因序列等）本質上無法用連續空間的梯度資訊描述，直接套用傳統分數匹配方法不僅不自然，也難以有效學習。此外，離散分布的不可微特性使得去噪過程難以建模，導致現有離散擴散模型往往在生成效果和訓練穩定性上受限。此論文即是基於這樣的背景，挑戰離散數據建模的核心理論瓶頸，尋求一種既有理論保證又具備實務可行性的擴散建模新架構。

核心方法與創新點

本論文的核心貢獻在於提出「分數熵」損失函數，讓分數匹配理論自然延伸至離散領域。傳統分數匹配依賴連續數據的分布梯度，但在離散空間上梯度不定義。作者創新地透過估計資料分布的比值（ratio）代替梯度，定義一個可微的目標函數——分數熵，這種方法本質上是在衡量當前模型分布與真實資料分布的相對差異，並依此優化模型參數。

具體而言，SEDD 模型在離散域上構造正向擴散過程，以多階段的隨機變換逐步將原始資料向無序分布擴散。反向過程則透過神經網絡學習如何根據當前擴散狀態，估計資料分布的比值，進而進行有效的去噪還原。分數熵損失函數同時兼具理論完整性和計算可行性，能夠穩定驅動離散擴散模型的訓練。

另一大創新是 SEDD 展現高度的靈活性與效率。一方面，它不需依賴如溫度調節（temperature scaling）等後處理技巧，即可生成高品質文本；另一方面，生成時可自由平衡計算成本與生成品質，允許以極低的額外運算次數達成可與大型自回歸模型（transformer-based autoregressive models）匹敵的性能。此外，SEDD 支持多樣的文本控制策略，如多向填充（controllable infilling），突破傳統單向左到右生成的限制，更加靈活地應用於文本生成任務。

主要實驗結果

作者在標準語言建模資料集上對 SEDD 進行嚴謹評估，結果顯示 SEDD 在相似模型尺寸條件下，生成文本的語言困惑度（perplexity）相比現有語言擴散模型大幅提升，減少幅度高達 25% 至 75%。更驚人的是，SEDD 的性能不僅優於其他語言擴散模型，甚至在多項測試中超越了 GPT-2，這是目前深度學習語言生成的代表性自回歸模型之一。

在生成多樣性與可信度方面，SEDD 在不使用溫度退火調節等技巧下，仍能保持生成文本的流暢度與內容合理性，呈現出約 6 到 8 倍優於未退火 GPT-2 的困惑度，體現其純擴散模型架構的強大生成能力。進一步分析其運算效率，SEDD 能以少 32 倍的網絡評估次數保持與 GPT-2 相當的文本品質，這在運算資源有限的實務環境中具極大優勢。

此外，SEDD 在控制生成策略上展現出優越的靈活性，採用多種生成策略，包括可控填充與 nucleus sampling，均達到甚至超越自回歸模型的表現。這不僅豐富了擴散模型在語言生成的應用場景，也為自然語言生成提供了更廣泛的操作空間。

對 AI 領域的深遠影響

本論文突破了離散數據擴散建模的理論與實務瓶頸，提出利用資料分布比值估計的分數熵損失函數，成功將擴散模型由連續領域延伸到離散領域，並在語言模型任務上取得對抗自回歸模型的前沿成果。此突破不僅在自然語言處理領域具有指標意義，亦為其它離散結構資料（如圖結構、分類標籤序列、基因序列等）提供了一條可行的高效生成新路徑。

隨著擴散模型架構被證明適用於文字生成，這項研究將促使學術界與工業界重新思考離散生成模型的設計理念，激發更多對非自回歸、高效率、可控擴散模型的探討與開發。更長遠來看，SEDD 的方法與框架為混合離散與連續數據的跨模態生成與分析打開新契機，推動生成模型在更廣泛應用中的普及化與多樣化。

綜合而言，Lou 等人所提出的 SEDD 模型不僅是擴散模型走向離散世界的重要里程碑，更為生成模型未來的發展指明了理論與實務並重的研究方向。對具備基礎 AI 知識的工程師及研究生而言，深入理解本論文的分數熵理論及其架構設計，不僅有助於開拓離散數據生成的新視野，亦能啟發更廣泛的生成式 AI 技術革新。

論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834

行有餘力則以學文

2026年4月17日星期五

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

研究背景與動機

核心方法與創新點

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年4月17日 星期五

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

研究背景與動機

核心方法與創新點

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年4月17日星期五