在近年生成模型領域,擴散模型(Diffusion Models)因其出色的生成質量和理論支持,成為視覺生成和其他連續數據建模的主流方法。然而,這類模型在離散數據領域,特別是自然語言處理(NLP)等場景中,仍面臨顯著挑戰。傳統擴散模型依賴於連續空間中計算數據分布的分數函數(score function)—即分布對輸入的梯度—利用得分匹配(score matching)理論來訓練模型,但在離散空間中,這種連續微分的概念難以直接套用,導致擴散模型在文字等離散資料上的表現遠不及基於自回歸(autoregressive)架構的語言模型。
本篇來自 Lou, Meng 與 Ermon 等人在 ICML 2024 上榮獲最佳論文獎的論文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,針對此一領域瓶頸提出了劃時代的突破。他們透過「Score Entropy」的創新損失函數,開創性地將得分匹配延伸至離散空間,從理論框架到實現細節皆克服了傳統擴散模型對離散資料建模的困難,成功构建了性能優秀的離散擴散模型——Score Entropy Discrete Diffusion(SEDD)。
研究背景與動機
目前在 NLP 領域使用最廣泛的生成模型是基於自回歸結構的 Transformer,如 GPT 系列。這類模型通過條件機率逐字生成文本,但其缺點在於生成長序列時計算資源消耗大且生成速度慢。此外,自回歸模型在控制生成文本上下文一致性和多樣性方面仍有一定限制。
擴散模型利用馬爾科夫鏈逐步將數據加噪至隨機分布,再由模型學習逆過程逐步還原資料,理論上具備更靈活的生成機制與多樣性控制潛力。在圖像生成等連續數據表現卓越,但將其引入 NLP 面臨兩大挑戰:
- 離散空間無法直接定義連續微分,得分匹配理論難以延伸。
- 現有的離散擴散方法在語言任務上仍遠落後於自回歸模型,且生成品質不穩定。
因此,該研究核心動機是尋找一種理論上嚴謹且實用的新方法,讓擴散模型能夠自然且高效地應用於離散數據建模,並能在生成質量上媲美甚至超越現有基準。
核心方法與創新
作者提出的關鍵概念是score entropy,一種全新定義的損失函數,旨在估計資料分布的比值(ratio of data distribution)而非直接估計分數函數。在連續空間中,得分函數是數據分布密度的梯度;但在離散空間中,作者觀察到可以透過比值來捕捉類似的訊息,這種比值形式比純粹的梯度信息更適合離散資料的結構。
具體來說,SEDD 模型的培訓過程從原理出發,利用條件概率比值和多步噪音轉換建立起一套離散擴散的概率模型框架。score entropy 損失自然地整合這一框架,有效找出離散資料的隱藏結構,並引導模型學習逆向生成過程。此外,該方法設計兼容多種離散空間結構,廣泛適用於不同型態的離散資料,如文字、編碼序列等。
本論文更在訓練技術細節上做了優化,例如確保數值穩定性,提升計算效率,並提出了有效的樣本生成策略,確保模型能產生流暢且語義合理的離散樣本。
主要實驗結果
為驗證方法有效性,作者在多種標準語言建模任務中進行實驗。結果顯示,SEDD 模型在相同模型規模下,能顯著壓低語言模型的困惑度(perplexity),相對於既有的語言擴散模型減少 25% 至 75%,並且競爭自回歸模型表現,甚至超越了 GPT-2 在多項指標上的成績。
除了生成質量的提升,SEDD 還展現出多項實務優勢:
- 生成文本更忠實(faithful),不需倚賴如溫度調整(temperature scaling)等傳統分布退火技巧;其生成的困惑度比未退火的 GPT-2 好上 6 到 8 倍。
- 在計算效率上,可透過調整網絡評估次數在生成結果品質與運算成本間靈活權衡,最高可使用約 32 倍更少的網絡評估,同時維持相近質量。
- 支持文本補全(controllable infilling)等多種生成策略,不受限於從左到右的序列生成,使得生成更加靈活且多樣。
對 AI 領域的深遠影響
此研究不僅從理論面填補了擴散模型在離散數據建模上的空白,也推動了擴散模型從傳統的連續空間廣泛應用至離散領域,為 NLP 及其他離散領域開創了全新生成式建模路徑。相較於自回歸模型,SEDD 以不同機制實現高品質生成,並提供更多靈活的生成設計空間,打破了生成式語言模型現有的性能與效率限制。
更重要的是,score entropy 融合概率比率估計的思路為未來離散生成模型提供了一個全新且普遍適用的技術方向。這不僅有助於提升自然語言生成質量,也可能促進結構化離散資料如基因序列、編碼序列、圖論結構等的生成模型發展。
綜合而言,這篇榮獲 ICML 2024 最佳論文獎的作品,成功促使擴散模型在離散領域從理論探討轉向實際突破,極大豐富了生成模型的家族結構,並可能深刻影響未來幾年生成式 AI 技術演進的走向。
論文資訊
📄 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
👥 Lou, Meng, Ermon
🏆 ICML 2024 · Best Paper
🔗 arxiv.org/abs/2310.16834

沒有留言:
張貼留言