在生成式模型領域中,擴散模型(Diffusion Models)近年來因其卓越的生成效果,成為研究熱點,特別是在連續數據如影像生成上取得了突破性成果。然而,當擴散模型應用於離散數據領域——例如自然語言處理——卻未能展現相似的表現優勢。這其中的核心挑戰在於,傳統擴散模型依賴於「score matching」(分數匹配)理論,該理論本質上建立於連續空間上的概率密度函數智慧估計,而離散空間中無法直接定義連續的梯度或密度,導致現有嘗試未能有效將score matching轉移到離散結構並取得良好效果。
針對此一瓶頸,ICML 2024 的最佳論文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》由 Lou 等人提出一種全新且理論紮實的解決方案:透過引入 Score Entropy,一種新穎的損失函數,成功將score matching概念拓展至離散空間。此方法不但在理論上填補了離散擴散模型的漏洞,也在實務應用中實現了極大性能提升,尤其在自然語言建模任務中表現尤為突出。
研究背景與動機
傳統擴散模型的核心機制是透過逐步「加噪」與「去噪」來學習數據分布的演化過程,具體而言是學習數據點對周遭點的梯度(score function),即對數機率分布的梯度。然而這種方法天然適用於連續空間,因為連續空間中概率密度函數的梯度存在且可被有效計算。對於離散空間,例如語言中的詞彙或字元,概率分布是定義在有限或可數集合上的概率質量函數(probability mass function),這使得傳統score matching無法直接套用。過去的研究大多嘗試改寫連續擴散架構,或者利用近似技巧強行套用,但均未在生成質量或效率上達到令人滿意的效果。
作者觀察到,若想在離散空間建立有效的擴散模型,關鍵在於能否找到一個「自然且合適的目標函數」,使得模型可以通過學習局部的概率「比率」(ratios),而非高維且難以直接建模的概率本身,來捕捉數據的分布結構。這正是本論文創新點所在——提出Score Entropy損失函數,從概率比率出發,將score matching的理念成功帶入離散領域。
核心方法與創新
Score Entropy Discrete Diffusion(簡稱 SEDD)模型基於以下幾個關鍵創新:
- Score Entropy損失函數:傳統score matching試圖逼近數據分布的gradient vector field,但在離散空間不可行。作者提出用「比例估計」(ratio estimation)方法,定義了score entropy作為損失函數,實際上是結合了log概率比的概念與熵的結構,用以衡量模型估計的分布比率與真實數據分布的差異。此函數在離散空間中有良好的理論性質並可優化。
- 離散擴散過程的重構:將擴散過程用離散變量的轉移矩陣表示,依據比例估計的score entropy優化去噪模型,使模型學會在每個離散狀態空間節點上,如何從加噪後的分布「反推」回原始數據的局部分布結構。
- 高效生成與控制:相較於自回歸模型(如GPT系列)需逐字預測,SEDD支持平行去噪抽樣,生成速度更快,且因為其基於比例估計,也天然支持靈活的填充控制(controllable infilling)策略,不僅限於左到右的生成順序,提升了使用彈性以及在多樣生成任務中的適應性。
在架構設計方面,作者將score entropy的計算與神經網絡模型相結合,並透過多層計算疊代精緻化比例估計,使用類似Transformer的結構來處理自然語言等離散序列數據。
主要實驗結果
作者在標準的語言建模基準上對SEDD進行了詳細評估,與其它的離散擴散模型以及自回歸模型(以GPT-2為代表)相比,結果顯著提升:
- 生成困惑度大幅降低:在相近模型規模下,SEDD在測試集的困惑度(perplexity)較現有語言擴散模型降低了25%至75%,顯示生成的文本更具語言學習意義和合理性。
- 超越主流自回歸模型:SEDD在無需溫度調整(如temperature scaling)等退火技術的情況下,其生成文本的困惑度甚至優於未調整的GPT-2,生成質量更為忠實且穩定。此外,SEDD解決了自回歸模型在未退火下常見的生成結果過於集中或缺乏多樣性的問題。
- 計算與品質的靈活權衡:透過減少去噪迭代次數,SEDD仍能保持與GPT-2類似的生成品質,但所需的網絡評估次數可減少32倍,極大降低了實際部署的計算成本與延遲。
- 生成策略的多樣性:SEDD支持不同的抽樣策略,包含對大的語境遮罩進行的可控填充,性能能與主流如nucleus sampling 競爭,彈性遠超過傳統的自回歸逐字生成,更適合需要局部修改或部分重組的文本生成任務。
對 AI 領域的深遠影響
本論文的貢獻不僅是提出了一個在離散領域具備理論基礎和實務優勢的擴散模型架構,更在生成模型的基本理論層面提出了革新。透過將「概率分布的比率估計」和「score matching」相結合,開闢了一條全新的思路,為離散數據的生成建模帶來全新視角與技術手段。
此研究結果意義多重:
- 理論突破:突破了score matching對離散數據應用的阻礙,使擴散模型不再局限於連續領域,擴寬了擴散方法的理論基礎與適用範圍。
- 實務價值:在自然語言生成任務中,SEDD有效彌補了以前擴散模型困惑度高、生成效率低的缺點,且生成質量媲美乃至超越既有主流自回歸模型,有望促使基於擴散原理的離散生成模型在工業界獲得應用。
- 方法通用性:該方法不僅適用於自然語言,也可推廣至其他離散結構的生成問題,如圖結構、序列決策等,為離散數據生成研究的未來奠定了堅實基石。
- 引領研究方向:本論文激發後續研究可朝多元生成策略、多模態離散數據融合,以及擴散模型與其他生成范式混合等方向探索,推動生成模型整體發展。
綜合而言,Lou 等人在ICML 2024 的這篇論文,在理論深度與實用效能兩方面均突破離散擴散模型的長期困境,重塑了擴散模型在離散數據領域的競爭力,代表著生成式 AI 研究中一項重要的里程碑,也為未來複雜離散結構的智能生成提供了全新思路和利器。
論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834

沒有留言:
張貼留言