行有餘力則以學文: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

2026年4月3日星期五

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

在影像生成領域，傳統的自回歸（Autoregressive, AR）模型多數採用逐像素或逐區塊的「下一像素（next-token）預測」方式，依序生成圖像元件，類似自然語言處理中的語言模型（如 GPT）。然而，這種由左到右、從上到下的標準自回歸方法常面臨序列過長、推理速度緩慢，以及難以擴展到更高解析度圖像的瓶頸。另一方面，近年崛起的擴散模型（Diffusion Models）與變分自動編碼器（VAE）雖然在影像質量和多樣性上表現亮眼，但在推理效率與結構解釋性方面仍有挑戰。

NeurIPS 2024榮獲最佳論文的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》一文，提出了全新視覺自回歸建模架構（Visual Autoregressive Modeling，簡稱 VAR），突破現有生成模型的框架限制，為圖像生成帶來更快、質量更高且具擴展性的解決方案。

研究背景與動機

自回歸模型在語言生成領域發展極為成功，像GPT系列憑藉逐token的預測策略，展現強大的語言理解與生成能力，並有明確的「尺度法則（Scaling Laws）」與「零樣本任務泛化（Zero-shot Generalization）」特性。然而，當自回歸拓展到圖像領域，因像素數量龐大以及空間結構複雜性，使得標準的下一像素預測面臨極大挑戰：訓練及推理時間冗長，生成品質有限，且難以拓展至更大尺寸圖像。

另一方面，擴散模型近年迅速崛起且在生成質感上表現傑出，然而其高推理成本及訓練效率，限制了實時與大規模部署的可能性。而 Transformer 架構在圖像生成的運用，如 Denoising Diffusion Transformer（DiT），雖有較好的性能，但推理速度與資料利用率仍不理想。

鑑於此，作者們提出「從粗到細的尺度預測」新範式，即「Next-Scale Prediction」概念，試圖打破逐像素生成的窠臼，將圖像生成看作是分階段的解析度層級預測過程，藉此提升生成模型的效率與效果。

核心方法與創新點

VAR的核心創新在於將視覺自回歸框架從標準的 raster-scan 下一token預測，轉變為「下一尺度（Next-Scale）」或「下一解析度」圖像的預測。

粗到細的自回歸方式：VAR模型先生成低解析度的圖像，接著逐層預測更高解析度細節，每一階段的輸入包含之前階段的輸出，模型學習條件式生成更精細的圖像結構。這種多階段的生成機制，顛覆了傳統的像素序列生成模式，使得長序列問題得以緩解。
多尺度 Transformers結構設計：VAR架構利用Transformer強大的建模能力，聚焦於解析度層級的資訊互動與條件生成，不僅提升了學習效率，也使模型能在較小序列長度的前提下捕捉更多上下文訊息。
提升推理速度與質量：透過階段式生成，每層解析度的生成量不斷增加，但由於階段間為條件式生成，推理過程可大幅減少冗餘計算，達到約20倍於傳統AR模型的速度提升，同時生成圖像質量大幅躍進。

此外，作者深入驗證了VAR在數據效率、推理速度、圖像質量等多維度均超越現有的擴散Transformer（DiT），且在放大模型規模時展現出類似於大型語言模型的明確尺度法則，基於實驗數據相似程度高達-0.998，反映模型在視覺領域亦能達到 GPT 類模型的可預測擴展性。

主要實驗結果

為了公平比較，作者在ImageNet 256×256解析度基準上與多個主流方法進行評估，包含標準AR基線以及擴散Transformer：

在Frechet Inception Distance (FID)指標上，VAR將AR基線由18.65大幅改善至1.73，顯示生成影像與真實影像在分布層面的高度匹配。
在Inception Score (IS)上，從80.4躍升至350.2，說明生成圖像的多樣性與可辨識性有顯著提升。
推理速度提升約20倍，相較於傳統AR模型大幅縮短生成時間。
超越現有擴散Transformer方法，在數據利用效率與擴展能力都表現更為優異。
具備零樣本下游任務泛化能力，能直接應用於圖像修補、外延、編輯等任務，顯示其強大的生成及調控彈性。

整體實驗不僅展示VAR在圖像生成質量與效率上的革新，也首次將自回歸模型推向超越擴散模型的表現地位。

對 AI 領域的深遠影響

VAR提出的「Next-Scale Prediction」視覺建模思維，大幅改寫了影像生成的自回歸策略，帶來以下多方面影響：

突破圖像生成速度與規模限制：透過粗到細分階段生成，減輕了長序列的計算負擔，使得AR模型能在大解析度圖像生成中更為實用，大幅提升了生成速度和可擴展性。
鏈結視覺與語言大型模型特性：VAR模型不僅展示了與大型語言模型相似的尺度法則，也實現了零樣本任務泛化，使多領域生成模型朝向通用且高效的方向邁進。
促進統一多模態生成框架的探索：作為一種通用且解釋性強的生成架構，VAR有可能成為連結文字與視覺生成的橋樑，推動跨模態融合及統一學習模型發展。
改變影像生成應用邊界：快速、高質的影像生成不僅可用於創意產業，也適用於醫療影像、工業檢測等專業場景，拓寬AI在影像領域的實際應用疆界。

總結來說，VAR不只是提出了一套技術革新，更引入了視覺生成從細節到整體的全新生成觀，結合強大的Transformer架構與多尺度層次生成策略，創造出一條可擴展、實用且高效的影像生成新道路。隨著模型與代碼已公開，期待VAR在未來視覺AI研究與各類應用中發揮更大影響力，成為推動圖像智能生成進步的重要里程碑。

論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905