2026年5月6日 星期三

Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations

近年來,擴散模型(Diffusion Models)在生成模型領域掀起了一波革命,特別是在圖像生成和去噪任務中展現出卓越的表現。這類模型藉由逐步將雜訊加入數據,再反向去噪重建高品質樣本,成功突破了維度詛咒(curse of dimensionality)的限制。然而,儘管擴散模型在視覺質量上取得顯著成績,近期仍有學者質疑其是否真能夠泛化學習資料的「真實」機率密度,或僅是在記憶訓練資料。

鑑於此,Kadkhodaie 等人於 ICLR 2024 發表的論文《Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations》提出了一個關鍵觀察:即使兩個深度神經網路(DNN)分別在資料不重疊的子集上訓練,當樣本數量充足時,它們所學到的得分函數(score function)卻近乎相同,代表著學習到了相同的機率密度。此現象暗示擴散模型在大樣本數狀態下,並非簡單記憶,而是具有強泛化能力,且透過去噪生成的圖片既與訓練集不同,視覺質量亦極高,因此模型的內在歸納偏差(inductive biases)與資料密度高度契合。

研究背景與動機

傳統生成模型在高維資料學習時常面臨維度詛咒問題,使得擬合資料分布變得困難。擴散模型的成功在於利用去噪過程逼近數據分布的梯度(即 score function),從而有效地進行樣本生成。儘管如此,近期針對訓練資料記憶現象的報告引發疑問:這類模型真的學習到「資料的連續真實密度」了嗎?此外,對模型內部表示及其歸納偏差尚缺乏深入的數學分析。

核心方法與創新

本文創新地從幾何與算子理論角度切入,系統解析了擴散模型所學的去噪函數,發現模型的歸納偏差促成了沿著影像結構自適應(geometry-adaptive)的諧波基底(harmonic bases)的形式。透過該基底表示,去噪函數可被看作是一種收縮(shrinkage)操作,類似於對特定頻率成分的選擇性濾波,這在影像的邊緣輪廓與均質區域皆展現出獨特的振盪結構。

這種基於圖像幾何結構的諧波基底並不是隨機產生,而是模型在大規模資料訓練下自然趨近的表示。研究還指出,無論是自然肖像、低維流形上的特定圖像類別,甚至是理論上已知的最佳基底類型,受訓的去噪網路均顯示出對這些自適應諧波基底的偏好,呈現了強烈且可解釋的歸納偏差。

主要實驗結果

實驗部分,作者以兩組完全不重疊的子資料集分別訓練獨立網路,經測試其得分函數結果極為相近,證明模型泛化真實資料分布而非僅記憶。此外,透過數值分析與視覺化,驗證了基底的幾何適應與諧波特性,且這些基底在多種影像類型上均穩定出現。作者亦在理論與實驗層面證明:當訓練資料的理想基底已知為幾何自適應與諧波結構時,訓練出的模型去噪效能接近最優,支持其基底假設。

對 AI 領域的深遠影響

此篇論文突破傳統黑盒深度學習模型的局限,從數學及幾何層面首次明確揭示了擴散模型泛化能力的本質理由,深化了我們對高維資料學習機制的理解。它不僅為解釋擴散模型的優異性能提供了理論基礎,也指明了未來優化生成模型設計的方向,即優化模型對幾何自適應諧波表示的捕捉。

在實務層面,該研究有助於訓練更具泛化力的擴散模型,避免過度擬合,提升現實應用中的魯棒性與生成圖像品質。此外,該工作將幫助 AI 研究者從算子理論、訊號處理與幾何分析結合深度學習,催生更多跨領域的創新方法。未來在自然語言處理、語音生成等其他高維生成任務中,此幾何-諧波洞見亦有望發揮重要影響。

總結來說,Kadkhodaie 等人的研究不僅破解了擴散模型泛化奧秘,更開創了結合深度學習與數學幾何工具的新思路,為生成模型理論發展立下重要里程碑。


論文資訊
📄 Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations
👥 Kadkhodaie, Guth, Simoncelli, Mallat
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.02557

沒有留言:

張貼留言