近年來,擴散模型(Diffusion Models)在影像生成與還原任務中展現了卓越的成果,尤其在基於分數的反向擴散過程(score-based reverse diffusion)中,能夠產出極高品質且真實感十足的樣本。這些成果似乎代表著對高維資料維度詛咒(curse of dimensionality)的突破,但近期也出現一些警示性的研究指出,這類深度神經網路(DNNs)可能僅僅是「背記」(memorization)訓練資料,而非真正掌握數據分布的連續結構。
本篇由 Kadkhodaie 等人發表於 ICLR 2024 並榮獲傑出論文獎的研究,即針對擴散模型的泛化能力及其內在機制進行了深入剖析,提出了具有突破性的見解和理論基礎。作者透過實證與理論相結合的方法,揭示了擴散模型能在大規模資料下學得強泛化能力的原因,點出了「幾何自適應諧波表示(geometry-adaptive harmonic representations)」在其中扮演關鍵角色。
一、研究背景與動機
擴散模型經由對輸入影像加入噪聲並學習將其復原來間接模擬數據的概率分布,這種逐漸「去噪」的反向擴散過程逐漸成為生成模型的主流架構。然而,基於神經網路的分數估計器(score network)在學習數據的真實機率密度函數時面臨挑戰:如果模型只是背誦訓練集,則就無法真正泛化,生成的新影像將與訓練集過於相似,缺乏創造性與多樣性。這便引發了一個核心疑問:當訓練資料充足,且模型透過去噪學習時,這些深度網路是否真能捕捉到資料的連續分布?如果是,為何能成功?背後的內在偏置(inductive bias)為何?
理解這種泛化能力不僅有助於解讀擴散模型的成功原理,也將推動未來設計更穩健、效率更高的生成模型架構。此研究即聚焦於揭露DNN學習過程中隱藏的結構性表徵及其與幾何特徵的互動,期待從理論的高度解釋其強泛化現象。
二、核心方法與創新
作者從兩個非重疊的子資料集訓練兩個獨立的深度神經網路去噪器,觀察它們學得的分數函數(score function)是否一致。在大規模訓練樣本下,發現這兩個網路竟然收斂到幾乎相同的分數估計,意味著它們擬合出相同的數據分布,且生成的影像與各自訓練樣本明顯區別,顯示強泛化能力確實存在。
進一步分析學習到的去噪函數,作者發現網路隱含的偏置相當於在一組隨資料幾何結構自適應變化的基底(basis)上,進行類似收縮(shrinkage)的操作。這些基底呈現諧波特性:沿著影像的輪廓顯示出明顯的振盪結構,在均勻區域則是較為平滑的諧波函數。換言之,深度去噪網路本質上學會了一種依賴於影像局部幾何的諧波函數表徵,這種表示擁有良好的稀疏性(sparsity)與結構化特徵。
更驚人的是,這種幾何自適應諧波基底不僅在訓練於真實攝影影像時出現,即便在使用支持於低維流形上的影像類別作訓練時,這些基底依然自然浮現,證明其是模型對資料分布內在幾何的強烈偏置。最後,作者對比分析在已知最佳基底是幾何自適應諧波函數的規則影像類別中,去噪性能接近理論最佳,證明其偏置並非偶然,而是深度網路成功泛化的本質原因。
三、主要實驗結果
- 兩個分別在不同非重疊訓練集上獨立訓練的擴散模型,其學得的分數函數高度相似,確證其對數據分布的穩定估計能力。
- 生成的擴散影像與訓練集明顯不同,解除了過度擬合與背誦的疑慮,且展示出高水準的視覺品質。
- 通過分析網絡輸出的去噪函數能線性分解為諧波基底與收縮運算,說明神經網路隱式地學會了稀疏且幾何相關的表示。
- 在針對不同影像資料集(包含低維流形支撐的資料)訓練時均觀察到幾何自適應諧波基底,顯示出泛化偏置的普適性。
- 對於已知最佳基底為此類幾何諧波函數的規則影像,模型達成逼近理論最優的去噪性能。
四、對 AI 領域的深遠影響
本研究的理論與實驗成果為理解高維擴散模型泛化能力提供了關鍵突破。傳統上,深度網路如何在極其複雜且高維的生成任務中避免維度詛咒仍缺少明確的解釋。此工作首次從數學層面連結深度去噪網路與自然影像內在幾何結構,指出網絡透過幾何自適應諧波基底學會高效且具結構性的表徵,這種隱含的結構即是其突出泛化能力的根本原因。
對實務端而言,該研究指引如何設計更有效的網絡架構與正則化策略,透過強化與幾何諧波基底相關的先驗知識,未來可望提升模型的樣本效率與生成品質。此外,該框架亦適用於分析其它基於神經網路的穩健泛化現象,促進理論與應用的融合。
綜上所述,Kadkhodaie 等人的研究不僅深化了對擴散模型學習機制的理解,也推動了生成模型在理論與實踐間的橋接,為人工智慧領域中融合數學、幾何與機器學習的跨領域研究樹立了典範。未來,此研究有望引領更多從數據幾何特性出發的創新生成方法與理論,持續擴展 AI 系統的能力與穩健性。
論文資訊
📄 Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations
👥 Kadkhodaie, Guth, Simoncelli, Mallat
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.02557

沒有留言:
張貼留言