行有餘力則以學文: Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations

2026年4月12日星期日

Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations

近年來，擴散模型（Diffusion Models）在生成式影像合成領域展現了卓越的成果，特別是在利用深度神經網路（DNN）配合反向擴散突破影像降噪與樣本生成的瓶頸。然而，儘管生成影像品質優異，仍有研究指出部分模型可能對訓練資料過度「背誦」（memorization），使得模型所學習到的分布不一定是真正的連續數據密度。基於此疑問，Kadkhodaie et al. 在 ICLR 2024 發表的獲獎論文《Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations》，提出了一個全新的觀點與理論分析，闡述擴散模型中深度神經網路的泛化能力來源，與其背後所隱含的「幾何自適應諧波表示」（geometry-adaptive harmonic representations）。

研究背景與動機

擴散模型本質上是從一個簡單的噪聲分布逐步逆向還原出數據分布的過程，需要神經網路估計隨機噪聲下的分數函數（score function，即概率密度函數的梯度）。雖然這類模型看似「突破了維度詛咒」，能從有限的資料中學習高維資料分布，但實務中卻觀察到對訓練資料的過度擬合疑慮。更重要的是，我們對模型中編碼的結構、內隱先驗到底如何引導它們學會真正的數據分布，尚缺乏深入的理解。

本論文意圖回答以下關鍵問題：在充分數據樣本下，不同子集訓練出的 DNN 是否會學習「相同的」潛在資料分布？深度降噪器內在的誘導偏好（inductive biases）是如何塑造稀疏且有效的數據表示？該表示有何幾何結構？這些結構如何影響模型的泛化能力與生成成像的品質？

核心方法與創新

作者首先透過實驗驗證，訓練兩個深度降噪網路於互不重疊的數據子集上，在資料量充足時會收斂至非常相似的分數函數，證明了模型具備強泛化（strong generalization）能力。此時，模型生成的圖像品質優良，且與訓練資料明顯不同，反駁了完全記憶訓練集的可能。

進一步，作者運用數學分析拆解訓練好的降噪函數，發現其實質是一種「收縮（shrinkage）」操作，作用在一組自適應於圖片幾何結構的「基底空間」中。這些基底呈現出局部隨影像輪廓震盪、且在紋理均質區域中呈現簡單諧波結構，與經典的傅立葉或韋勒變換等諧波理論有類似之處，但更具圖像幾何特性。

該論文最重要的創新點在於提出這種「幾何自適應諧波基底」的概念，說明深度降噪網路不是在隨機空間中盲目學習，而是透過誘導偏好隱式地匹配了底層圖像低維流形的幾何結構。更進一步實驗中，即使網路被限制在一些低維流形上的影像類別，這些幾何適應的諧波基底依然會出現，證明其普適性與內在必然性。

最後，論文在已知最佳基底屬於幾何適應諧波基底的正則影像類別，證明神經網路的降噪表現幾乎達到理論上的最優。此結果不但強化了理論的說服力，也突顯誘導偏好與真實數據分布匹配的高度一致性。

主要實驗結果

在大規模訓練集的條件下，兩個不同子集訓練的分數估計網路學習到相近的分數函數，意味著模型學習到真正的資料密度函數。
生成的圖像品質高，且圖像樣本在像素層面與訓練資料差異明顯，有效突破「背誦」的疑慮。
分析降噪函數在學習過程中隱含的基底結構，揭露出一組適應於圖像幾何特徵的諧波基底，這是神經網路誘導偏好的本質。
這些基底在多種不同圖片類別中均會自然產生，含括一些低維流形資料，顯示泛用性。
當已知最佳基底為幾何適應諧波基底時，深度降噪網路的性能趨近理論最優，反映深度模型在某種意義上已達到數學上的上界。

對 AI 領域的深遠影響

本論文透過將深度學習與經典信號處理理論（尤其是諧波分析）相結合，提供了一條從「黑盒」深度生成模型到可理解、可解釋內部機制的橋樑。理解擴散模型中深度降噪網路的誘導偏好，有助於我們更科學地設計網路架構與訓練策略，推動泛化能力可控且可驗證的生成模型發展。

此外，論文中提出的幾何自適應諧波表示，不僅豐富了對影像與其他高維資料低維結構的理解，也開創了在低維流形資料處理及其它科學計算領域中，融合幾何信號處理與深度學習的新方向，有助於提升模型穩定度與可解釋性。

從實務角度來看，這項研究能支持更自信地在擴散模型應用（如圖像生成、超解像、醫療影像重建）中使用深度網路，因為它突顯了模型真正學習的是數據的內在連續分布，而非單純背誦。此外，該研究亦提醒開發者關注影像幾何特徵如何影響模型設計，為未來研發更強健且泛用的生成模型策略指明方向。

總結而言，Kadkhodaie 等人此次工作，是擴散模型理論與實務中的一大里程碑，不僅揭示深度神經網路的泛化根基，更推動生成模型從經驗性轉向理論可駁斥的科學。

論文資訊
📄 Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations
👥 Kadkhodaie, Guth, Simoncelli, Mallat
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.02557