2026年6月5日 星期五

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution 獲 ICML 2024 最佳論文深度介紹

近年來,擴散模型(Diffusion Models)在影像生成、語音合成等連續領域取得了革命性的進展,成為生成式模型中炙手可熱的技術之一。然而,當這類模型被用來處理離散資料——特別是自然語言這類結構複雜的符號序列時,性能表現卻往往不盡理想。傳統的擴散模型基於 score matching 的理論基礎,能有效估計資料分布的梯度(score function),但這一理論在離散空間移植時遇到根本性的障礙。針對這個問題,ICML 2024 最佳論文之一《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》提出了一種全新的方法論——透過「比例估計(ratios estimation)」及創新的「score entropy」損失函數,成功將擴散模型普適化到離散資料空間,並大幅提升離散擴散模型的效能。

研究背景與動機

擴散模型的基本概念是從資料分布出發,透過多階段「添加噪聲」與「反向去噪」過程,最終生成高品質樣本。這些方法普遍基於連續變量、利用 score matching 技術來學習資料梯度。然而,自然語言等離散資料並不具備直接定義「梯度」的連續結構,導致傳統 score matching 難以有效應用。

過去數年,離散擴散模型(Discrete Diffusion Models)開始嘗試將擴散框架帶入文字生成,但多數方法在生成品質與運算效率上仍遠不及主流的自迴歸模型(autoregressive models),尤其在大規模語言建模上存在難以逾越的差距。此外,離散空間中缺乏自然的梯度導數,亦使得訓練目標函數的設計成為重大挑戰。

在此大背景下,本論文提出一項突破性的理論與應用貢獻:打造一種基於估計資料分布比例的新型「score entropy」損失,破除梯度障礙,實現離散擴散模型性能上的大幅躍進。

核心方法與技術創新

本論文的核心創新在於:重新定義了擴散模型在離散空間中的目標函數,並設計出「score entropy」(SE)損失,該損失本質上利用了資料分布比例(ratio of data distribution)的估計,而非直接對梯度的匹配。具體而言,作者提出的 Score Entropy Discrete Diffusion(SEDD)模型,藉由估計每一步擴散轉移中的條件概率比例,間接捕捉離散資料的分布特性,進而構建去噪模型。

比較傳統 score matching 以「梯度」為核心的設計,SE 損失巧妙地擺脫了數學上無法定義梯度的離散空間限制,以訊息熵和比例估計的形式,完美銜接擴散過程中的離散狀態轉移。這種設計不僅符合擴散模型框架的概率論基礎,更天然適配離散空間的結構特性。

此外,SEDD 還融合了最新的架構與訓練技巧,提升了計算效率與模型靈活性。例如,在生成階段,SEDD 支持非左→右的多樣化生成策略(如「infilling」,即補齊缺失文字),實現更強的可控性;並且能在無需退火或溫度調節等技術輔助下,產生更真實且具可讀性的文本。

主要實驗結果

為驗證方法有效性,作者在多個標準語言模型任務上,與當前領先的語言擴散模型及自迴歸模型進行了深入對比。

  • 性能表現:在相同模型規模下,SEDD 較先前語言擴散模型在 perplexity(困惑度)上降低 25% 到 75%,顯著優化了模型對語言資料的擬合能力。
  • 與自迴歸模型比較:SEDD 在生成質量上不僅與 GPT-2 等自迴歸主流模型看齊,更在部分評測中超越 GPT-2,令人驚艷。
  • 生成穩定性:傳統自迴歸模型必須採用溫度調節或類似的分布退火方法才能產生流暢自然的文本,而 SEDD 生成文本則自然穩定,未經調節即達到約為未退火 GPT-2 6 至 8 倍的生成 perplexity 效能。
  • 效率與計算量:SEDD 可在不損失生成品質的狀況下,將網路評估次數減少高達 32 倍,大幅降低推論成本。
  • 生成策略多樣性:SEDD 支援多種文本生成策略,不受限於固定的序列左→右生成流程,能進行自主補齊(infilling)等多樣生成任務,表現與主流核採樣(nucleus sampling)方法同等水準,並開啟更多潛在應用可能。

對 AI 領域的深遠影響

本論文的貢獻不僅僅是離散資料上更好的擴散模型,其方法論上的創新為生成建模奠定了新的理論基石。過去離散空間建模的困境主要是因為缺乏適合的學習目標和有效率的架構設計,SEDD 透過「比例估計」與「score entropy」的創新融合,重新啟動了離散擴散模型的發展潛力。

此外,透過對比例函數的估計,該方法天然對離散結構更友善,也促進了如自然語言處理、程式碼生成、二元序列等領域中生成模型的多元演進。此方法未來還可能擴展至結構化數據(圖形、樹狀結構)及其他非連續空間,拓展 AI 生成模型的適用範圍。

最後,該方法在可控生成的實用性上展現巨大潛能,使得生成式 AI 更靈活且具適應性,特別是在須求多樣且可調的文本生成功能時,有望成為主流新興解決方案,對語言模型以及廣泛的離散數據生成領域貢獻深遠。

總結

《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》一作,透過獨創的 score entropy 損失與比例估計框架,成功突破了離散擴散建模的理論瓶頸和實務挑戰。該方法在多項語言生成任務中展現出卓越的性能與效率,甚至超越主流強勢的自迴歸架構,意義非凡。這項研究不僅推動了擴散模型的研究前沿,更開啟了生成式 AI 在離散資料領域的新篇章,對自然語言處理及相關領域未來發展具有關鍵指標作用。


論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834

沒有留言:

張貼留言