行有餘力則以學文: Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

2026年5月11日星期一

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

隨著深度生成模型技術的飛速發展，擴散模型（Diffusion Models）因其在影像生成等連續數據領域取得顯著成果，成為近年來備受矚目的生成方法。然而，當應用至離散資料如自然語言處理（NLP）時，傳統擴散模型的表現卻未能達到預期水準。其根本挑戰來自於：擴散模型的理論基礎是「得分匹配」（score matching），而該理論原本是設計於連續空間，直接套用於離散結構時，效果不彰且難以有效學習資料分布的細膩結構。

為破解離散數據擴散模型效能不足的瓶頸，本論文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》由Lou、Meng與Ermon於ICML 2024提出了突破性的「Score Entropy」損失函數，成功將得分匹配理論自然擴展到離散空間，建立一套完整、高效的離散擴散模型架構 Score Entropy Discrete Diffusion（簡稱SEDD）。該研究不僅在理論層面做出深刻創新，也在實驗中展現出超越現有離散生成模型的性能，獲得該屆ICML最佳論文獎殊榮。

研究背景與動機

擴散模型近年在連續數據，特別是影像生成領域，突破了生成品質的瓶頸，掀起一波生成式 AI 熱潮。然而離散資料，如文字、符號及其他結構化資料，因其非連續性質，使得擴散過程難以直接套用。原有的歌頌「得分匹配」理論依賴對連續空間的微分運算，無法直觀映射至具有明確枚舉狀態變化的離散空間中。

在自然語言處理的文本生成任務中，自回歸模型（如 GPT 系列）長期主宰此領域，但其一次生成一詞的設計，導致生成效率與長距離依賴捕捉限制。現有嘗試將擴散理論套用於離散語言生成，但多數基於概率轉移或重采樣技術，缺乏強有力的理論指導和效率優化方向，生成質量和速度均不理想。

本論文的核心動機即為填補這一理論與實務的鴻溝：尋找一種兼顧理論嚴謹性與實證效果的離散版擴散模型訓練目標，既能有效描述離散資料的分布比值（density ratios），同時維持模型學習的穩定與高效。

核心方法與創新

作者從根本上檢視得分匹配的離散化難題，提出以「Score Entropy」為核心的損失函數。傳統得分匹配是在連續資料空間中，用資料分布的分數函數（資料對數密度函數的梯度）作為學習目標。離散空間無法定義這種梯度，因此本研究聚焦將學習目標轉向估計資料分布的「比值」——也就是不同狀態間的機率比。

「Score Entropy」損失透過一種新的數學定義與計算方式，將資料分布的比值估計自然嵌入離散擴散過程。該方法讓模型在每個擴散步驟中，通過有效估計鄰近狀態之間的比值，來推動數據從雜訊狀態逐步復原至真實資料分布，實現品質與效率兼顧的生成過程。

SEDD模型架構配合此損失函數，具備以下創新：

理論嚴密地將score matching擴展到純離散空間，避免了過去依賴近似或重參數化的困境。
提出一套高效的反向擴散過程設計，使得生成文本的時間復雜度大幅度低於傳統自回歸模型。
天生支持文本的「可控填充」(controllable infilling)，不須限定單向的生成順序，擴展了生成策略的靈活度。

主要實驗結果

論文選用多個標準語言模型基準來評測SEDD，包括語言建模中常見的困惑度（Perplexity），與生成品質相關的多項指標。結果顯示，SEDD大幅超越目前主流的離散擴散模型，困惑度降低約25%到75%，說明對語言結構的掌握更加精準。此外，與主流自回歸模型GPT-2做直接比較時，SEDD在無任何後處理調溫技巧（如溫度縮放）的情況下，生成質量超過GPT-2約六到八倍的困惑度表現。

除生成質量外，SEDD在計算效率上也有突破。研究者指出，透過調整網絡的評估次數，可以在類似質量水平下實現約32倍的運算次數節省，顯示出該方法極強的靈活性和實用價值。

最值得一提的是，在文本生成策略上，SEDD支援多元可控生成方式，不限於傳統左到右的自回歸式生成。這點讓模型能像Nucleus Sampling（核取樣）一樣靈活，但同時提供更多生成策略選項，在文本填充與修改上的應用場景更具潛力。

對 AI 領域的深遠影響

本論文以嚴謹理論基礎突破了長久以來離散擴散模型效能不彰的瓶頸，使得擴散模型在離散資料領域獲得嶄新生命。這既是理論上的巨大跨步，也是生成式 AI 工具面向多元資料型態遞進式整合的重要里程碑。

從應用角度看，SEDD展現出驚人的生成表現與計算效率，為自然語言處理中的文本生成、補全、修改等任務，提供了極具競爭力的新架構。尤其是其突破傳統自回歸模型限制、不必仰賴調溫技術穩定生成的特性，可能推動未來離散數據生成技術朝著更高效且易於控制的方向發展。

此外，論文中的「Score Entropy」損失概念與基礎架構不僅限於語言，未來極有望擴展至其他離散數據領域，如生物序列建模、圖結構資料生成等，為多領域 AI 研究者開啟新的方法思考與實踐方向。

整體而言，本論文的貢獻不單為離散生成模型帶來理論和實務的雙重革新，也在生成模型領域中樹立了應對離散資料挑戰的新典範。這代表未來生成式 AI 會更普遍地涵蓋多元資料型態，進一步推動人工智慧在語言理解、創作及其他離散資料相關應用上的突破。

論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834

行有餘力則以學文

2026年5月11日星期一

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年5月11日 星期一

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年5月11日星期一