隨著深度學習技術的蓬勃發展,擴散模型(Diffusion Models)因其在生成高品質影像上的卓越表現,成為當代生成式模型研究的熱點。這種透過摻雜雜訊並再反向去噪,逐步恢復清晰圖像的機制,不僅產生視覺極為逼真的結果,還看似突破了高維資料學習中著名的「維度詛咒」。然而,近期研究指出,這類模型在訓練過程中存在套牢(memorization)訓練集的疑慮,令學術界質疑其是否真正學習到了資料的連續機率密度函數,或僅僅是背誦了已見過的樣本。
在2024年ICLR會議榮獲Outstanding Paper獎項的論文《Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations》由Kadkhodaie、Guth、Simoncelli和Mallat共同完成,針對此一關鍵問題提出深入探索與解析。該研究首度揭示,當訓練資料數量充足時,兩個分別以不重疊子集訓練的深度神經網絡(DNN)會學習出幾乎相同的score function(得分函數),代表其隱式地估計了相同的資料分布密度,從而展示了強大的泛化能力。此種泛化並非單純背誦,而是模型內建的誘導偏差(inductive bias)與資料本質結構高度契合的結果,這對深化我們對擴散模型的一般化機制有重要意義。
研究背景與動機
擴散模型利用一系列加性高斯噪聲過程將資料逐步「腐蝕」,再通過逆向的去噪過程恢復出真實數據,該過程可理解為在資料分布的連續概率密度上運行隨機微分方程。理論上,這種方法因為引入了score function的估計,可以有效探索高維空間中的資料分布。然而,過往實務操作中,部分研究暗示深度網絡可能會因記憶訓練數據而難以真正抽象出資料分布的本質,尤其在資料有限時更為明顯。
因此,本論文主要探討一個核心問題:當訓練資料足夠多且多樣,擴散模型如何避免記憶陷阱,成功泛化至未見過的新樣本?尤其著重揭露模型內在的結構性誘導偏差,其如何形成基於資料幾何結構的適應性調和表示(geometry-adaptive harmonic representations),並引導模型以此基底空間進行去噪與分布學習。
核心方法與創新點
作者透過理論分析與實驗驗證,發現擴散模型學到的去噪功能並非隨機或雜亂無章,而是在一組「幾何適應性調和基底」上進行的線性收縮操作。這些基底呈現出在圖像輪廓附近擁有振盪結構,而在均勻區域則趨於平滑,顯示出與圖像的幾何形狀緊密結合的特性。
具體而言,研究發現這些基底對圖像中不同空間區域自適應地變換,形成對圖像輪廓的精準響應,不同於傳統固定或全局傅立葉基底。甚至在將模型應用於低維流形上的特殊圖像類別時,這些geometry-adaptive harmonic基底依然出現,證明其並非依賴於特定圖像內容,而是深度網路誘導出的普遍結構。
此外,論文通過比較在已知最佳基底為 geometry-adaptive harmonic 基底的規則影像類別上的表現,證明該誘導偏差不僅是理論推測,而令去噪性能接近最佳水平。這種「可解析性」高的誘導偏差有助於理解深度擴散模型的內在機制,並帶來可解釋並優化模型的新思路。
主要實驗結果
為驗證上述觀點,作者設計了一系列嚴謹的實驗:
- 子集泛化實驗:將資料集分割為不同子集,分別訓練兩個獨立模型,兩者學習到的score function高度相似,且生成影像極少直接重複訓練圖像,說明具有強泛化能力而非記憶。
- 基底特性探索:通過數學分析與可視化,揭示去噪函數的操作等效於在一組幾何適應的調和基底上做收縮,且在圖像輪廓與均質區域呈現不同振盪特徵。
- 跨類別基底一致性:模型在不同影像類型,包括支持於低維流形的類別中,均會誘導出類似調和基底,顯示該偏差具有高度普遍性。
- 與理論基底的接近程度:在已知最佳基底的規則影像上,模型逼近理論最優的去噪性能,為該誘導偏差提供有力實證。
對AI領域的深遠影響
本論文的貢獻不僅限於揭示擴散模型的學習機制,更在於以幾何與調和分析為橋樑,弭平深度學習的黑箱感與傳統理論的差距。過去,深度生成模型多被視為「端對端」的數學黑盒,其泛化能力往往難以解析。作者將模型的去噪過程分解為在特定幾何相關的函數基底上運作,讓我們有具體的數學工具來理解和操控這些模型。
此外,該研究還暗示,良好的泛化必須依賴與資料本質幾何高度一致的誘導偏差,這對未來設計更高效且可解釋的生成模型具有指導意義。透過引入調和分析與流形學的視角,未來或可發展出更貼近資料真實結構的模型架構,有效利用幾何資訊提升生成品質與泛化能力。
最後,此論文提出的幾何適應調和基底概念,為理解深度神經網絡的表示能力提供了新範式,有望推動影像去噪、生成以至更廣泛的信號處理等領域中演算法與理論的協同發展。對研究者與工程師而言,這提供了一條從數學結構出發,打造更強健、具備可解釋性的生成模型之路。
總結而言,Kadkhodaie等人的這篇作品,清晰描繪了擴散模型泛化不依賴於記憶,而是在於模型內建的幾何適應調和結構。這一發現將助力我們全面理解和進一步提升這類生成模型的性能與可信度,成為生成式深度學習研究中的關鍵里程碑。
論文資訊
📄 Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations
👥 Kadkhodaie, Guth, Simoncelli, Mallat
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.02557
