近年來,擴散模型(Diffusion Models)已成為圖像生成領域的重要技術,憑藉其在生成高品質且細節豐富影像上的卓越表現,逐漸取代早期 GAN 等技術成為主流。這類模型在圖像質量、生成多樣性與條件對齊度三方面展開優化,然而這三者之間存在著相互牽制的關係。例如,常用的分類器無關指導(Classifier-Free Guidance)方法,透過用無條件模型(unconditional model)來指導有條件模型(conditional model)生成,可提升條件相符度與圖像質量,但代價是生成多樣性受到嚴重壓縮。這種「三角關係」似乎難以打破,使得研究者難以在保持多樣性的同時提升品質與條件對齊度。
本篇 NeurIPS 2024 最佳論文候選《Guiding a Diffusion Model with a Bad Version of Itself》由 Karras 等人提出一個顛覆性的觀點:不再使用無條件的成熟「教師」模型來指導,而是使用該模型的「較差版本」——一個訓練較少、參數規模較小的「自我降階版本」來當作指導者。此舉巧妙解開了質量與多樣性間的糾纏,達成了以不同方式控制圖像生成品質的創新突破。
研究背景與動機
擴散模型結合了隨機反向擴散過程與深度神經網路,能從純噪聲逐步復原逼真影像。當加入條件訊息(如文字描述、類別標籤)後,模型能生成條件相關的多樣影像,但使用分類器無關指導方法時,為了獲得精準的條件控制,會透過引入「無條件」估計與「有條件」估計的加權差異放大目標特徵,結果讓生成的影像品質提高,但樣本多樣性下降。這限制了擴散模型在創意生成、資料多樣性維持等方面的潛力。
論文作者敏銳察覺,這種「指導模型需要更強大」的普遍做法可能自限於固定架構,於是提出利用同一模型不同訓練階段的版本做為指導者。此方法意在利用「較弱的模型版本」在引導過程中不過度約束生成多樣性,創造出一種平衡且人為可控的生成策略。
核心方法與技術創新
本文的核心創新在於提出一種「自我指導」(self-guidance)策略,具體步驟如下:
- 建立基線擴散模型:先取得一個已完整訓練的擴散模型,該模型即為「較強版本」。
- 製作「退化版本」:透過聚合較少訓練步數、簡化網路架構或降低模型容量,產生該模型的「較弱版本」,即「壞版本」的自己。
- 指導過程設計:在生成階段,將「壞版本」作為指導模型來產生引導訊號,並引導「完整版本」的生成。這不同於傳統用無條件模型指導有條件模型的方法,創造新的指導先驗與約束。
這方法讓模型既能保持生成高質量的圖像,又能有效避免因指導過強導致的多樣性損失,實現了對圖像品質與變異的**解耦控制**。作者在方法解釋中指出,「壞版本」不會強迫模型聚焦在既定條件上過度收斂,而是透過較寬鬆、不完美的引導,促使生成分布保持一定的多元性。
此策略同時適用於有條件和無條件擴散模型,有別於以往主要針對有條件模型使用的分類器無關指導方法。更重要的是,這一策略不需引入外部分類器或額外模型,完全在現有框架內產生可訓練與推理的改進,降低了系統複雜度和應用門檻。
主要實驗結果
作者在 ImageNet 資料集上對該方法進行大規模評估,涵蓋低解析度(64×64)與高解析度(512×512)兩種生成任務,並與先前的分類器無關指導方法比較。關鍵指標為 Fréchet Inception Distance (FID),越低代表生成圖像越接近真實分布。
- 在 64×64 解像度下,新方法達成驚人的 FID 1.01,大幅超越先前最佳成績。
- 於 512×512 解像度,則取得 FID 1.25,同樣創下當時公開數據網路的最佳紀錄。
- 此外,在無條件擴散模型的應用中,同樣看到品質顯著提升,說明指導策略的廣泛適用性。
- 品質提升同時保證了生成樣本的多樣性,與傳統指導方法中品質與多樣性的負相關形成鮮明對比。
這些結果證明,利用「壞版本」自我指導能在不犧牲多樣性的前提下,推動生成模型品質到全新高度。研究團隊也釋出公開權重與程式碼,利於學界與產業立即實驗與落地。
對 AI 領域的深遠影響
這篇論文的創新帶來了多重深遠影響:
- 生成模型指導策略的革新:過去指導模型多透過外部、無條件且強大的模型引導,現在提出的自我指導策略,提供一條軟性且更具彈性的生成品質控制路徑,為擴散模型及更廣泛生成模型的發展開闢新方向。
- 生成品質與多樣性的解耦控制:一旦擴散模型能更靈活地平衡品質與多樣性,將極大提升生成模型應用於藝術創作、遊戲設計、虛擬代言人以及醫療影像模擬等多變場景的效能和實用性。
- 對模型訓練與架構設計的啟示:利用模型自身不同性能階段做為互補指導者,提出了跨訓練階段合作的新思路,可能衍生架構訓練過程中的新型正則化方法或增強式學習策略。
- 降低外部資源依賴,增加方法普適性:不需額外訓練獨立無條件模型,減少計算資源消耗並降低複雜度,使先進技術更易於推廣與商業應用。
總體而言,Karras 等人的工作在推動擴散模型向更智能且可控的方向演進上,扮演關鍵角色。它不僅刷新了圖像生成品質的標竿,更深化了我們對模型自我調節與自我指導潛力的理解,是生成模型領域一項極具啟發性的突破。
論文資訊
📄 Guiding a Diffusion Model with a Bad Version of Itself
👥 Karras, Aittala, Kynkäänniemi, Laine, Aila, Lehtinen
🏆 NeurIPS 2024 · Best Paper Runner-Up
🔗 arxiv.org/abs/2406.02507

沒有留言:
張貼留言