行有餘力則以學文: Guiding a Diffusion Model with a Bad Version of Itself：以退為進的擴散模型生成新思維

2026年5月28日星期四

Guiding a Diffusion Model with a Bad Version of Itself：以退為進的擴散模型生成新思維

近年來，擴散模型（Diffusion Models）已成為圖像生成領域的重要技術，憑藉其在生成高品質且細節豐富影像上的卓越表現，逐漸取代早期 GAN 等技術成為主流。這類模型在圖像質量、生成多樣性與條件對齊度三方面展開優化，然而這三者之間存在著相互牽制的關係。例如，常用的分類器無關指導（Classifier-Free Guidance）方法，透過用無條件模型（unconditional model）來指導有條件模型（conditional model）生成，可提升條件相符度與圖像質量，但代價是生成多樣性受到嚴重壓縮。這種「三角關係」似乎難以打破，使得研究者難以在保持多樣性的同時提升品質與條件對齊度。

本篇 NeurIPS 2024 最佳論文候選《Guiding a Diffusion Model with a Bad Version of Itself》由 Karras 等人提出一個顛覆性的觀點：不再使用無條件的成熟「教師」模型來指導，而是使用該模型的「較差版本」——一個訓練較少、參數規模較小的「自我降階版本」來當作指導者。此舉巧妙解開了質量與多樣性間的糾纏，達成了以不同方式控制圖像生成品質的創新突破。

研究背景與動機

擴散模型結合了隨機反向擴散過程與深度神經網路，能從純噪聲逐步復原逼真影像。當加入條件訊息（如文字描述、類別標籤）後，模型能生成條件相關的多樣影像，但使用分類器無關指導方法時，為了獲得精準的條件控制，會透過引入「無條件」估計與「有條件」估計的加權差異放大目標特徵，結果讓生成的影像品質提高，但樣本多樣性下降。這限制了擴散模型在創意生成、資料多樣性維持等方面的潛力。

論文作者敏銳察覺，這種「指導模型需要更強大」的普遍做法可能自限於固定架構，於是提出利用同一模型不同訓練階段的版本做為指導者。此方法意在利用「較弱的模型版本」在引導過程中不過度約束生成多樣性，創造出一種平衡且人為可控的生成策略。

核心方法與技術創新

本文的核心創新在於提出一種「自我指導」（self-guidance）策略，具體步驟如下：

建立基線擴散模型：先取得一個已完整訓練的擴散模型，該模型即為「較強版本」。
製作「退化版本」：透過聚合較少訓練步數、簡化網路架構或降低模型容量，產生該模型的「較弱版本」，即「壞版本」的自己。
指導過程設計：在生成階段，將「壞版本」作為指導模型來產生引導訊號，並引導「完整版本」的生成。這不同於傳統用無條件模型指導有條件模型的方法，創造新的指導先驗與約束。

這方法讓模型既能保持生成高質量的圖像，又能有效避免因指導過強導致的多樣性損失，實現了對圖像品質與變異的**解耦控制**。作者在方法解釋中指出，「壞版本」不會強迫模型聚焦在既定條件上過度收斂，而是透過較寬鬆、不完美的引導，促使生成分布保持一定的多元性。

此策略同時適用於有條件和無條件擴散模型，有別於以往主要針對有條件模型使用的分類器無關指導方法。更重要的是，這一策略不需引入外部分類器或額外模型，完全在現有框架內產生可訓練與推理的改進，降低了系統複雜度和應用門檻。

主要實驗結果

作者在 ImageNet 資料集上對該方法進行大規模評估，涵蓋低解析度（64×64）與高解析度（512×512）兩種生成任務，並與先前的分類器無關指導方法比較。關鍵指標為 Fréchet Inception Distance (FID)，越低代表生成圖像越接近真實分布。

在 64×64 解像度下，新方法達成驚人的 FID 1.01，大幅超越先前最佳成績。
於 512×512 解像度，則取得 FID 1.25，同樣創下當時公開數據網路的最佳紀錄。
此外，在無條件擴散模型的應用中，同樣看到品質顯著提升，說明指導策略的廣泛適用性。
品質提升同時保證了生成樣本的多樣性，與傳統指導方法中品質與多樣性的負相關形成鮮明對比。

這些結果證明，利用「壞版本」自我指導能在不犧牲多樣性的前提下，推動生成模型品質到全新高度。研究團隊也釋出公開權重與程式碼，利於學界與產業立即實驗與落地。

對 AI 領域的深遠影響

這篇論文的創新帶來了多重深遠影響：

生成模型指導策略的革新：過去指導模型多透過外部、無條件且強大的模型引導，現在提出的自我指導策略，提供一條軟性且更具彈性的生成品質控制路徑，為擴散模型及更廣泛生成模型的發展開闢新方向。
生成品質與多樣性的解耦控制：一旦擴散模型能更靈活地平衡品質與多樣性，將極大提升生成模型應用於藝術創作、遊戲設計、虛擬代言人以及醫療影像模擬等多變場景的效能和實用性。
對模型訓練與架構設計的啟示：利用模型自身不同性能階段做為互補指導者，提出了跨訓練階段合作的新思路，可能衍生架構訓練過程中的新型正則化方法或增強式學習策略。
降低外部資源依賴，增加方法普適性：不需額外訓練獨立無條件模型，減少計算資源消耗並降低複雜度，使先進技術更易於推廣與商業應用。

總體而言，Karras 等人的工作在推動擴散模型向更智能且可控的方向演進上，扮演關鍵角色。它不僅刷新了圖像生成品質的標竿，更深化了我們對模型自我調節與自我指導潛力的理解，是生成模型領域一項極具啟發性的突破。

論文資訊
📄 Guiding a Diffusion Model with a Bad Version of Itself
👥 Karras, Aittala, Kynkäänniemi, Laine, Aila, Lehtinen
🏆 NeurIPS 2024 · Best Paper Runner-Up
🔗 arxiv.org/abs/2406.02507