行有餘力則以學文: Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

2026年3月27日星期五

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

隨著生成模型在各種領域的表現不斷突破，擴散模型（Diffusion Models）憑藉其優異的生成質量與多樣性，成為影像及連續數據生成的主流技術之一。然而，擴散模型在處理離散資料（例如自然語言）上仍遇到顯著挑戰，無法達到與連續空間一樣的水準。本文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》（ICML 2024 最佳論文）由 Lou、Meng 與 Ermon 所提出，成功架構起擴散模型從連續到離散空間的理論與實務橋樑，不僅在語言建模任務中超越同級擴散模型，更逼近甚至超越經典自回歸模型如 GPT-2，為離散生成模型開啟嶄新方向。

研究背景與動機

擴散模型在連續數據（像是圖像）上採用「score matching」理論，透過學習資料分布的梯度場（score function）來逐步「去噪」生成新樣本，表現卓越。此方法的數理基礎成熟，並有完善的算法設計與理論保證。然而，在離散空間（像是字元、單詞序列）中，score matching 因為無法直接定義連續的梯度，導致理論及實務上的應用非常有限。過去學界嘗試多種離散擴散策略，但大多透過設計專屬的轉移機率或用其他啟發式技巧，結果仍難以匹配自回歸模型的生成質量和樣本多樣性。

鑑於此，作者團隊立足於根本—資料分布與生成過程間關係的本質，提出一套嶄新的離散擴散理論與實作，令擴散模型不再依賴連續空間的 score matching，而是在離散設定中透過估計資料分布「比率」來重構生成過程，從根本解決離散資料的推測瓶頸。

核心方法與創新

論文的最大突破點在於引入了Score Entropy這個全新損失函數，拓展了 score matching 的概念，並使其自然適用於離散空間。Score Entropy 透過估計資料分布中不同狀態之間的比率（或稱概率比例），來間接獲取擴散過程中最關鍵的生成資訊。此方法不同於傳統直接估計局部梯度的思路，而是利用概率比率的結構優勢，兼顧了離散空間的本質特點，且在數學上嚴謹且通用。

基於這一核心理念，作者提出了一套名為 Score Entropy Discrete Diffusion（SEDD） 的離散擴散模型架構。SEDD 不只是理論貢獻，它設計了一種端對端可訓練的離散擴散過程，利用 Score Entropy 損失函數優化參數，穩定且高效地逼近目標資料分布。此外，SEDD 允許模型靈活調節運算與生成質量的折衷，並支持多種生成策略，包括非傳統的非左到右生成方式，提升了模型應用的多樣性和控制能力。

主要實驗結果

作者在多個標準語言建模任務上進行了全面評估。實驗結果極具說服力：

生成困惑度（perplexity）大幅降低：相較於現有主流離散擴散模型，SEDD 在同等模型規模下能夠將困惑度降低 25% 至 75%，展現清晰的表現提升。
媲美甚至超越自回歸模型：SEDD 在語言生成能力上達到與 GPT-2 相當甚至更優的水準，且省去了自回歸模型常用的溫度調節等分布退火技巧，使生成文本的可信度與多樣性均衡度更好。
計算效率顯著提升：在品質與計算成本間做出折衷時，SEDD 能以接近相同的生成質量，使用約 32 倍更少的網路評估次數，有利於實際部署與擴展。
多種生成策略靈活應用：SEDD 支援包括填補（infilling）等多樣控製生成任務，並且在文本生成策略上能媲美 nucleus sampling 的品質，提供比自回歸模型更豐富的生成選項。

對 AI 領域的深遠影響

這篇最佳論文的貢獻不僅在於提出一個在離散資料中表現卓越的擴散模型，更從理論層面重新定義了如何在離散空間中進行逼近與生成的基礎問題。對於自然語言處理、序列生成、符號系統建模等廣泛領域具有以下深遠影響：

理論創新啟發未來研究：Score Entropy 提供了一條全新且可行的擴散模型理論擴展路徑，有望促成更多基於比例估計的離散生成模型開發，擴散模型的普適性得以大幅增強。
離散生成邁向新里程碑：過去擴散模型在詞類或符號資料上的限制被突破，SEDD 示範了離散數據的高質量生成可達到甚至超越主流自回歸模型的性能，極大豐富了生成模型生態。
實務應用展現更多潛能：SEDD 在生成質量、計算效率與可控性上的優勢，讓擴散模型更適合用於真實世界的語言、訊號及複雜符號序列生成，推動相關產品和系統的革新。
開啟跨模態擴散模型研究：離散與連續多模態資料生成往往存在統一模型的需求，本文方法的普適框架有助於整合離散符號與連續信號，為跨模態生成奠定堅實基礎。

總結而言，Lou 等人的「Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution」不只是離散擴散模型的一次技術躍進，更是生成模型理論與應用界的一項里程碑。它不僅回應了離散資料生成的長期痛點，也為未來多種離散結構的高效生成奠定了全新理論與實務基石。對具備基礎 AI 知識的工程師與研究生而言，深入理解此論文提供的方法與實驗，不僅能掌握目前離散擴散模型的最前沿技術，還將有助於設計出更加高效、靈活與可擴展的生成系統，推動語言模型及符號人工智能邁向下一個高峰。

論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834