行有餘力則以學文: Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training 深度解析

2026年4月7日星期二

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training 深度解析

隨著生成式模型的蓬勃發展，擴散模型（Diffusion Models）因其在圖像、音訊乃至多模態生成任務中展現卓越效果，成為當前最受矚目的技術之一。然而，生成模型的一個核心挑戰一直是如何在訓練過程中避免過度記憶訓練資料（memorization）、維持良好的泛化能力。尤其在參數極度過度且訓練規模龐大時，如何防止模型陷入「背書」訓練集，而非真正學習到訊息分布，是理論和工程實務上急需解答的謎題。

針對上述問題，Bonnaire、Urfin、Biroli 與 Mézard 在 NeurIPS 2025 中發表了獲獎論文《Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training》，從動態訓練過程角度切入，剖析擴散模型在學習過程中不易過度記憶的深層機理。此研究提供全新視角，結合理論分析與大量實驗，以解析為何擴散模型即使在高度過參數化與長時間訓練下仍然得以避免過度擬合。

一、研究背景與動機

擴散模型透過逐步加噪與反向去噪過程，模擬資料生成過程，映射簡單分布到複雜真實資料分布，取得目前生成質量最高的成果之一。然而，泛化能力的理論保證相當薄弱。深度神經網路往往因參數眾多呈現過度擬合，但擴散模型卻在實務上表現出「不易記憶」的特性，這種現象無法用傳統的古典機器學習理論輕易解釋。

本論文的核心動機在於揭示訓練過程的「動態階段」如何自然而然形成一種隱含的正則化機制（implicit dynamical regularization），讓模型在某段訓練時間內可以取得良好泛化，同時避免進入過度記憶的狀態。作者期望回答：

擴散模型訓練過程中，泛化與記憶的分界點是如何產生？
模型遭遇過度擬合的時間尺度如何與訓練資料規模相關？
何種訓練動態導致模型長時間停留於泛化良好的區間？

二、核心方法與創新

論文方法論架構主要包含以下兩大支柱：

1. 訓練動態與時間尺度分析

作者提出兩個關鍵的訓練時間尺度：

早期泛化時間尺度 \(\tau_{\mathrm{gen}}\)：模型開始產生高質量樣本的訓練時間，代表模型已成功學到資料分布的結構。
遲期記憶時間尺度 \(\tau_{\mathrm{mem}}\)：模型開始顯現過度記憶現象的時間點，此後訓練會逐步擬合甚至背書訓練資料，導致泛化能力下降。

作者發現 \(\tau_{\mathrm{gen}}\) 基本維持不變，與訓練資料集大小 \(n\) 無關，但 \(\tau_{\mathrm{mem}}\) 卻隨著 \(n\) 線性增長，意味著資料越多，模型泛化狀態存在的時間窗口越大。這形成了一個可調節的訓練時長區間，使模型即使在過度參數化下，仍能維持泛化而非立即陷入記憶。

2. 隱式動態正則化機制（Implicit Dynamical Regularization）

此研究的最大創新在於將訓練過程本身的動態機制視為一種「正則化策略」。不同於明確加入的正則化項（如L2、dropout等），訓練動態會自發調節模型學習行為，在長時間尺度形成記憶前維持泛化優勢。

論文透過解析簡化的隨機特徵模型（random features model）在高維極限的理論推導，證明此隱式機制的存在與特性。此外，實驗部分使用標準 U-Net 架構，配合合成與真實資料集詳細驗證，雙管齊下確認理論預測。

三、主要實驗結果

作者進行了多組實驗，驗證理論提出的時間尺度與動態正則化的假說：

在不同訓練資料規模下，實測 \(\tau_{\mathrm{mem}}\) 確實呈線性關係，且隨 \(n\) 增大，模型在 \(\tau_{\mathrm{mem}}\) 之前維持良好的生成品質。
在資料集較小時，過度記憶較快出現，生成樣本品質降低，與傳統過擬合現象相符。
透過早停（early stopping）與持續訓練的比較，模型在 \(\tau_{\mathrm{gen}} < t < \tau_{\mathrm{mem}}\) 時間段達成最佳泛化，展現動態正則化的實際效果。
隨機特徵理論模型精準捕捉 U-Net 實驗結果的趨勢，顯示提出的理論架構具有廣泛的解釋力。

四、對 AI 領域的深遠影響

此論文的貢獻不僅在於揭示擴散模型訓練過程中的記憶行為，更開啟了一條以「訓練動態本身即為正則化」的研究新途徑。幾項關鍵影響包括：

泛化理論的新視角：傳統機器學習理論多聚焦於靜態模型複雜度或明確正則化手段，本研究則以動態分析拆解泛化與記憶現象，拓展了過度參數化模型泛化理論的邊界。
優化策略與早停指引：論文指出訓練時間窗口的存在意味著實務中合理調控訓練長度（早停）是避免過度擬合的關鍵，為實務優化與參數調校提供理論支持。
對擴散模型的信心提升：透過理論和實證說明擴散模型自身訓練機制可有效防範過度記憶，降低需外部複雜正則化設計的需求，推動擴散模型在工業應用和科學研究的廣泛部署。
啟發其他類型生成模型探索隱式正則化：擴散模型經典架構背後隱含動態調節機制的概念，有助於理解GANs、變分自編碼器（VAEs）等生成模型訓練過程中的泛化機制，促進生成模型整體理論發展。

總結來說，Bonnaire 等人在此篇論文中成功結合嚴謹理論分析與大量實驗驗證，指出擴散模型在高度過參數化狀態下仍能維持優秀泛化，歸因於訓練過程中的隱式動態正則化與兩段式訓練時間尺度。這不僅為擴散模型的穩定性與泛化能力提供了關鍵解釋，也為深度學習理論和生成模型開發提供了寶貴的設計與優化指導。

此研究深具長遠影響，對理解生成式模型及其訓練動態，乃至整個深度學習架構下的過度擬合與泛化現象，都具有指標性意義，是生成模型理論領域不可錯過的里程碑。

論文資訊
📄 Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
👥 Bonnaire, Urfin, Biroli, Mézard
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.17638