2026年6月11日 星期四

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

隨著生成模型的快速發展,擴散模型(Diffusion Models)成為影像生成等連續數據領域的主流方法,展現出強大的生成能力與穩定性。然而,當將擴散模型應用於離散數據領域,特別是自然語言處理(NLP)中的文本生成時,現有方法卻無法達到相似的成功。這主要是因為傳統擴散模型的理論基礎——分數匹配(score matching)理論,原生設計是針對連續空間的數據,如何將其有效推廣到離散空間一直是學術界的挑戰。

在這篇於 ICML 2024 發表並榮獲最佳論文獎的 《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》 中,Lou、Meng 和 Ermon 提出了一種創新方法,稱為 Score Entropy(分數熵),成功將分數匹配理論自然延伸到離散空間中,並基於此設計了一套高效且性能卓越的離散擴散模型架構,名為 Score Entropy Discrete Diffusion(SEDD)。這篇論文不僅突破了離散數據生成的理論框架,同時在實務上大幅提升了自然語言生成的品質,且在多項文本生成指標上超越了主流自回歸模型,如 GPT-2。

研究背景與動機

擴散模型過去多利用目標分布的分數函數(score function)來指導數據從噪聲逐步還原的過程,這個方法在連續空間的影像生成任務中具體且有效。舉例來說,score matching 透過估計數據分布的對數密度梯度,驅動擴散過程的逆向生成。然而,文字和其他離散類型的數據不具備連續空間的結構,分數函數的定義不再適用,導致現有延伸方法在離散空間無法達到理想的生成表現。

過去嘗試包括將離散空間嵌入到連續空間或設計特定的馬爾可夫鏈提升擴散效率,但效果有限,且在文生任務中常因為複雜度過高與難以調校而難以商業化應用。這篇論文的動機正是要突破這道理論與實務的鴻溝,打造既有良好理論基礎又能實際應用的離散擴散生成模型,尤其針對自然語言這類典型的離散數據進行優化。

核心方法與創新點

論文作者提出的「分數熵(Score Entropy)」是本研究的理論核心。簡而言之,分數匹配的傳統目標是估計數據分佈的導數(連續空間中的對數密度梯度),然而在離散空間中無法直接取得相對應的導數。作者巧妙地跳脫純粹導數的框架,改採估計「資料分佈比率(ratios of the data distribution)」的角度,即直接對相鄰狀態之間的概率比率進行建模,利用分數熵作為新的損失函數來優化模型。

這種設計帶來多項優勢:

  • 理論上的自然延伸:Score Entropy 無需將離散事件硬映射至連續空間,而是從概率比率出發,保持離散本質並提供理論可證明的學習目標。
  • 兼容性強:該方法可無縫整合入擴散框架,避免對模型架構做大幅修改,便於與現有技術結合。
  • 提升生成效率:相較於傳統自回歸模型,SEDD 可在相同或更少的計算成本下,產生質量更高且多元性的文本生成結果,並能自由控制完成度與生成策略,如可控填充(controllable infilling)。

技術實現上,作者設計了一種特定的離散擴散過程,使模型能循序漸進地「去噪」並產生高品質文本。關鍵在於結合分數熵損失,指導模型更加準確地估計數據轉移過程中狀態概率的比率,避免了傳統分數匹配中連續導數不可用的瓶頸。

主要實驗結果

為驗證方法的有效性,研究團隊將 SEDD 應用於多種標準語言建模基準,包括常見的文本生成任務。實驗結果顯示:

  • 困惑度(Perplexity)顯著下降:SEDD 在相似模型大小條件下,相較其他離散擴散語言模型可降低 25% 至 75% 的困惑度,顯著提升生成文本的語義連貫度與流暢性。
  • 性能超越 GPT-2:雖然 GPT-2 是自回歸生成典範,但未經調溫(un-annealed)時,SEDD 可取得約 6 到 8 倍更低的生成困惑度,且不需額外的分布調節技巧如溫度調整(temperature scaling)。
  • 效能與效率兼顧:SEDD 支援在生成時計算量和品質間調節,在保持近似品質條件下,僅需約 1/32 的網路前向次數,大幅降低推論成本。這對現實部署場景尤為重要。
  • 靈活的生成控制:模型能執行 controllable infilling 等多樣化生成任務,並以類似 nucleus sampling 的高品質達到更豐富的文本生成策略,擺脫過往自回歸模型只能左到右逐字生成的限制。

對 AI 領域的深遠影響

這篇論文突破了長期限制擴散模型應用於離散領域的理論瓶頸,是擴散模型跨領域應用的重要里程碑。以下幾點尤為關鍵:

  1. 理論突破:「分數熵」的提出為離散分布學習提供了全新視角,擺脫連續導數的限制,理論意義深遠。未來具有廣泛潛力應用於各類離散生成任務,包括文本、圖形結構、基因序列等。
  2. 實務價值:SEDD 在自然語言生成任務取得的優異表現,挑戰了自回歸模型的統治地位。尤其其效率與質量間的良好平衡,使得企業在部署大型生成式 AI 時擁有更多元的選擇。
  3. 生成策略多元化:突破純左到右生成框架,支援 controllable infilling 等新型任務,這對於對話系統、文本編輯、數據增強等應用場景具有革命性意義,有助於實現更靈活人機互動。
  4. 後續研究開端:此研究開啟了「估計資料分佈比率」在生成模型中的新方向,吸引學界投入更多關於離散擴散理論與應用的深耕,期待未來在自然語言理解、符號推理等領域中繼續發光發熱。

總結而言,Lou 等人提出的 Score Entropy Discrete Diffusion(SEDD) 不僅是離散擴散建模領域的理論突破,更在自然語言生成的真實應用中展現強大實力,具備引領新一代生成式 AI 技術發展的潛力。對於從事生成模型研究或應用的工程師與學者而言,深入理解並掌握這套方法,有助於未來在生成式 AI 競爭中取得關鍵優勢。


論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834

沒有留言:

張貼留言