2026年4月3日 星期五

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

在影像生成領域,傳統的自回歸(Autoregressive, AR)模型多數採用逐像素或逐區塊的「下一像素(next-token)預測」方式,依序生成圖像元件,類似自然語言處理中的語言模型(如 GPT)。然而,這種由左到右、從上到下的標準自回歸方法常面臨序列過長、推理速度緩慢,以及難以擴展到更高解析度圖像的瓶頸。另一方面,近年崛起的擴散模型(Diffusion Models)與變分自動編碼器(VAE)雖然在影像質量和多樣性上表現亮眼,但在推理效率與結構解釋性方面仍有挑戰。

NeurIPS 2024榮獲最佳論文的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》一文,提出了全新視覺自回歸建模架構(Visual Autoregressive Modeling,簡稱 VAR),突破現有生成模型的框架限制,為圖像生成帶來更快、質量更高且具擴展性的解決方案。

研究背景與動機

自回歸模型在語言生成領域發展極為成功,像GPT系列憑藉逐token的預測策略,展現強大的語言理解與生成能力,並有明確的「尺度法則(Scaling Laws)」與「零樣本任務泛化(Zero-shot Generalization)」特性。然而,當自回歸拓展到圖像領域,因像素數量龐大以及空間結構複雜性,使得標準的下一像素預測面臨極大挑戰:訓練及推理時間冗長,生成品質有限,且難以拓展至更大尺寸圖像。

另一方面,擴散模型近年迅速崛起且在生成質感上表現傑出,然而其高推理成本及訓練效率,限制了實時與大規模部署的可能性。而 Transformer 架構在圖像生成的運用,如 Denoising Diffusion Transformer(DiT),雖有較好的性能,但推理速度與資料利用率仍不理想。

鑑於此,作者們提出「從粗到細的尺度預測」新範式,即「Next-Scale Prediction」概念,試圖打破逐像素生成的窠臼,將圖像生成看作是分階段的解析度層級預測過程,藉此提升生成模型的效率與效果。

核心方法與創新點

VAR的核心創新在於將視覺自回歸框架從標準的 raster-scan 下一token預測,轉變為「下一尺度(Next-Scale)」或「下一解析度」圖像的預測。

  • 粗到細的自回歸方式:VAR模型先生成低解析度的圖像,接著逐層預測更高解析度細節,每一階段的輸入包含之前階段的輸出,模型學習條件式生成更精細的圖像結構。這種多階段的生成機制,顛覆了傳統的像素序列生成模式,使得長序列問題得以緩解。
  • 多尺度 Transformers結構設計:VAR架構利用Transformer強大的建模能力,聚焦於解析度層級的資訊互動與條件生成,不僅提升了學習效率,也使模型能在較小序列長度的前提下捕捉更多上下文訊息。
  • 提升推理速度與質量:透過階段式生成,每層解析度的生成量不斷增加,但由於階段間為條件式生成,推理過程可大幅減少冗餘計算,達到約20倍於傳統AR模型的速度提升,同時生成圖像質量大幅躍進。

此外,作者深入驗證了VAR在數據效率、推理速度、圖像質量等多維度均超越現有的擴散Transformer(DiT),且在放大模型規模時展現出類似於大型語言模型的明確尺度法則,基於實驗數據相似程度高達-0.998,反映模型在視覺領域亦能達到 GPT 類模型的可預測擴展性。

主要實驗結果

為了公平比較,作者在ImageNet 256×256解析度基準上與多個主流方法進行評估,包含標準AR基線以及擴散Transformer:

  • 在Frechet Inception Distance (FID)指標上,VAR將AR基線由18.65大幅改善至1.73,顯示生成影像與真實影像在分布層面的高度匹配。
  • 在Inception Score (IS)上,從80.4躍升至350.2,說明生成圖像的多樣性與可辨識性有顯著提升。
  • 推理速度提升約20倍,相較於傳統AR模型大幅縮短生成時間。
  • 超越現有擴散Transformer方法,在數據利用效率與擴展能力都表現更為優異。
  • 具備零樣本下游任務泛化能力,能直接應用於圖像修補、外延、編輯等任務,顯示其強大的生成及調控彈性。

整體實驗不僅展示VAR在圖像生成質量與效率上的革新,也首次將自回歸模型推向超越擴散模型的表現地位。

對 AI 領域的深遠影響

VAR提出的「Next-Scale Prediction」視覺建模思維,大幅改寫了影像生成的自回歸策略,帶來以下多方面影響:

  • 突破圖像生成速度與規模限制:透過粗到細分階段生成,減輕了長序列的計算負擔,使得AR模型能在大解析度圖像生成中更為實用,大幅提升了生成速度和可擴展性。
  • 鏈結視覺與語言大型模型特性:VAR模型不僅展示了與大型語言模型相似的尺度法則,也實現了零樣本任務泛化,使多領域生成模型朝向通用且高效的方向邁進。
  • 促進統一多模態生成框架的探索:作為一種通用且解釋性強的生成架構,VAR有可能成為連結文字與視覺生成的橋樑,推動跨模態融合及統一學習模型發展。
  • 改變影像生成應用邊界:快速、高質的影像生成不僅可用於創意產業,也適用於醫療影像、工業檢測等專業場景,拓寬AI在影像領域的實際應用疆界。

總結來說,VAR不只是提出了一套技術革新,更引入了視覺生成從細節到整體的全新生成觀,結合強大的Transformer架構與多尺度層次生成策略,創造出一條可擴展、實用且高效的影像生成新道路。隨著模型與代碼已公開,期待VAR在未來視覺AI研究與各類應用中發揮更大影響力,成為推動圖像智能生成進步的重要里程碑。


論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:

張貼留言