2026年4月24日 星期五

Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations

近年來,擴散模型(Diffusion Models)因其在影像生成領域所展現的優異表現,成為深度學習與生成模型的研究熱點。尤其是基於深度神經網路(DNN)訓練的去噪過程與逆擴散機制,能生成高品質影像,顯示此類模型似乎突破了維度詛咒(curse of dimensionality)的限制。然而,近期研究同時指出模型可能隱含著對訓練集記憶的問題,質疑模型是否真正學習到了資料的「連續真實分布」。面對此一爭議,Kadkhodaie等人在其於ICLR 2024發表的論文《Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations》中,深入探討擴散模型的泛化能力與其內部表徵的幾何結構,獲評為Outstanding Paper,彰顯其研究價值與前瞻性。

研究背景與動機

擴散模型主要經由向資料加入隨機噪聲,逐步擾動原始數據,再利用神經網路學習的得分函數(score function),實現逆向去噪過程以還原資料分布。這類模型在多種生成任務中都獲得突破性的成果,特別是在影像合成上。然而,隨著模型體積與訓練資料增大,部分研究發現擴散模型可能存在一定程度的「記憶」現象,即生成的樣本高度相似於訓練圖片,對模型是否真正掌握數據的深層結構提出疑問。

本論文的出發點是深入理解擴散模型中DNN學習的去噪函數的內在機制,與其泛化能力的真正根基。作者透過實驗發現,不同且不重疊的訓練子集訓練出的模型,在樣本數量夠大時,竟能學習到幾乎相同的得分函數,暗示模型不只是死記硬背,而是在逼近數據真實的機率密度。此外,去噪功能的底層結構暗示了模型採用了一種特定的「幾何適應調和基底」(geometry-adaptive harmonic bases),這種基底結合影像的幾何特性與頻譜結構,達成了高效且泛化能力強的表徵。

核心方法與創新

作者將重點放在對「去噪函數」的解析,發現這些深度模型具備一種特殊的誘導偏好(inductive bias):在一組幾何適應的調和基底上執行壓縮操作。具體來說,所謂的「調和基底」指的是具有波動性(oscillatory)的函數形式,沿著影像的輪廓線和均勻區域呈現分明的頻率結構。這種基底能自然匹配影像的幾何特徵,避免生成過於模糊或過擬合訓練資料。

核心創新在於,作者不只從實驗中觀察到這類基底的存在,更透過理論分析和多種影像資料類型(包含由低維流形支撐的圖像集合)檢驗這一誘導偏好的普遍性與有效性。即使當訓練資料的最佳基底不完全是調和基底時,訓練出的去噪函數仍傾向朝這種基底學習,顯示模組對「幾何適應性調和表徵」具有先天偏好。

此外,作者進一步驗證,當資料類型為結構嚴謹、已知最佳基底的圖像集合(如調和結構明顯的正則圖像類群),模型的去噪性能與理論最佳解相當接近,證明此誘導偏好不僅具備理論意義,也具備實務價值。

主要實驗結果

實驗部分,作者訓練兩個DNN模型,分別使用資料集中不重疊的子集進行學習。結果顯示,在資料量充足情況下,兩模型學得的得分函數極其相似,且生成的影像既非訓練集的複製品,也達到高水準的視覺品質。此實驗直接反駁了擴散模型大量「記憶模式」的猜測,指出模型真正在學習潛在分布。

在分析去噪函數表徵時,作者利用解析方法揭露了在不同圖像區域(如邊緣輪廓、均勻背景)下基底的頻率與形狀特性。這些基底展現出高度結構化的調和波形,進一步驗證模型透過這種結構有效保持生成品質和泛化能力。

進一步實驗也包括在合成低維流形上訓練模型,驗證即使基底非最優調和形式,模型仍傾向向此類基底收斂,展現其強烈的誘導偏好。

對 AI 領域的深遠影響

這篇論文對生成模型與深度學習的理解做出了幾項重要貢獻。首先,它解釋了為何擴散模型能在高維資料空間中實現出色泛化能力,克服「維度詛咒」。關鍵不在於模型以海量參數機械記憶,而是在於模型學習了一種符合資料幾何特性、且具調和性的基底表示,這種表徵可被視為一種強而有力的誘導偏好,保證了模型的穩健性與泛用性。

其次,論文提出了用「幾何適應調和表徵」重新審視深度模型去噪功能的視角,此一理論框架能促進未來生成模型設計,啟發研究者如何藉由融入幾何與頻譜結構提升模型表現與解釋性。

再次,這項研究對於機器學習中模型泛化的理論基礎也具有啟發作用。它展示模型誘導偏好不僅是簡單的架構偏向,而是一種與資料內在幾何高度耦合的結構性現象,對破解黑盒神經網絡機制提供了可能的數學詮釋。

最後,該論文的發現對實務應用意義重大。理解和利用這種幾何適應的調和基底,可以促使開發更高效、更穩定的生成模型,推動影像合成、資料增強、視覺還原等多個應用場景的技術進步。

總結而言,Kadkhodaie等人的研究不僅突破了對擴散模型泛化能力的迷思,更以幾何調和表徵為中心,鏈接了深度學習、頻譜理論及幾何分析,開創了生成模型理解與設計的新視野。


論文資訊
📄 Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations
👥 Kadkhodaie, Guth, Simoncelli, Mallat
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.02557

沒有留言:

張貼留言