行有餘力則以學文: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度解析

2026年4月1日星期三

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度解析

隨著生成式模型在影像合成領域的飛速發展，如何在保持高質量生成的同時提升生成速度與模型擴展性，成為學術與工業界亟待解決的挑戰。傳統自回歸模型（Autoregressive Models, AR）的影像生成，通常依序預測圖像中每一個像素或像素塊的數值（raster-scan 風格的「下一個 token 預測」），但此方式在解析度提升時計算資源及時間成本激增，限制了模型的效能發揮與應用範圍。

2024 年 NeurIPS 年會榮獲最佳論文獎的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》一文，由 Tian、Jiang、Yuan、Peng 與 Wang 等人提出一種創新的視覺自回歸建模策略——Visual Autoregressive Modeling（VAR），透過「尺度級預測（next-scale prediction）」的概念，成功突破了傳統 AR 生成的限制，達成了在圖像生成品質與速度上的雙重飛躍。

研究背景與動機

過去影像生成主要可分為自回歸模型、生成對抗網路（GANs）、以及近年大熱的擴散模型（Diffusion Models）。其中自回歸模型以其嚴謹的概率結構，理論上具備極佳的生成品質保證，然而在實務上遇到的最大瓶頸在於生成過程中的逐像素或塊序列預測需大量計算，導致生成速度緩慢。對比之下，擴散模型雖然產生較為平滑且高質量的圖像，然而生成過程冗長且難以縮短推論時間。此外，自回歸模型的擴展性也受限於純序列化的預測方式，缺少清晰的尺度層次結構來有效捕捉多層次圖像資訊。

因此，論文作者提出「換個角度思考」，摒棄傳統逐點掃描的「下一個像素」預測框架，改以尺度為單位，逐層預測從低解析度到高解析度的影像，以「下一尺度」的圖像生成任務來替代「下一 token 預測」。此做法不僅順應人類視覺對多尺度訊息的處理習慣，也大大降低了序列長度與計算複雜度，為自回歸模型註入新的生命力。

核心方法與創新點

Visual Autoregressive Modeling（VAR）的核心在於將影像生成視為一個自底向上的多重解析度預測問題。具體而言，模型首先生成一張低解析度的粗糙圖像作為基礎，接著在該解析度影像基礎上，預測生成下一更高解析度的細節圖層。此過程重複進行，直到達成目標高解析度影像。模型架構以 Transformer 為核心，結合自回歸框架，分別對不同尺度的圖像進行建模，且變革性地改寫了自回歸序列的定義，從傳統的像素/塊序列變為「尺度順序」序列，實現大幅降低序列長度與推理時間。

下一尺度的預測框架：將影像生成任務轉化為由低解析度向高解析度逐步精煉的過程，類似於多層次的「粗到細」結構，顛覆了過往採用 raster-scan 平面的模型限制。
推理效率提升：藉由大幅減少序列長度與預測步驟，使得 VAR 在 ImageNet 256×256 規模下擁有約 20 倍的生成速度提升，實現實時應用潛力。
模型架構與訓練策略：透過設計適合「尺度級」建模的 Transformer 結構與訓練目標，促使模型能夠從低解析度圖像高效學習後續分辨率的視覺特徵分佈，且具備良好的泛化能力。
顯著改善生成品質：在評估指標上，VAR 通過改變自回歸範式，將傳統自回歸基線的 FID（Frechet Inception Distance）從 18.65 降至 1.73，IS（Inception Score）從 80.4 提升到 350.2，品質大幅躍升，甚至超越目前擴散模型領先代表 Diffusion Transformer (DiT)。

主要實驗結果

在 ImageNet 256×256 影像生成任務中，VAR 在同等計算資源與模型規模下，全面超越了先前頂尖的 AR 與擴散模型：

生成品質指標突破：FID 從傳統自回歸架構的 18.65 大幅下降至 1.73，顯示 VAR 生成的影像與真實影像在特徵空間的差異顯著縮小；IS 由 80.4 飆升至 350.2，展現其捕捉物體多樣性與鮮明性的能力提升。
推理速度顯著加速：相比於 Diffusion Transformer，在推論速度提升約 20 倍的同時，生成品質並未妥協，甚至有過之而無不及，對比擴散模型繁複多步的反覆取樣過程具有明顯優勢。
資料利用效率與擴展能力：VAR 展示了更好的樣本效率，使用較少的訓練數據即可達成優越表現，同時隨著模型與資料規模擴大呈現出類似大型語言模型（LLMs）的強大「尺度定律」，實驗中模型規模與性能指標展現出高度線性對數關係（線性相關係數約 −0.998）。
多任務零樣本泛化能力：VAR 不僅限於純生成任務，還在無需額外訓練的條件下，實現圖像修補（in-painting）、圖像外推（out-painting）與編輯等下游任務，類似 LLMs 的通用能力展現，表明自回歸視覺生成模型更具通用適用性。

對 AI 領域的深遠影響

VAR 的提出對生成式視覺模型領域具有多重顛覆性意義：

重塑自回歸影像生成模式：透過將生成任務解構為尺度層次的逐步預測，證明自回歸模型並非一成不變地需逐像素掃描，大幅提升了可擴展性和計算效率，讓此類模型重回視覺生成主流陣營。
結合多尺度結構與 Transformer 的強大表現力：VAR 開創性的架構設計，成功示範 Transformer 在多尺度畫面特徵捕捉上的潛力，為未來多模態、多分辨率統一建模奠定基礎。
突破擴散模型瓶頸，競爭新格局形成：過去擴散模型在生成品質與多樣性雖佔優勢，但速度與擴展性長久被詬病。VAR 在核心指標全面超越擴散 Transformer，不僅為高質圖像生成提供了一條更有效率的新路徑，也激勵學界和業界重新思考自回歸模型的應用潛力。
揭示視覺模型與語言模型的共通性：VAR 發現了與大型語言模型類似的尺度定律與零樣本泛化能力，暗示視覺與語言兩大模態的底層機制存在共通框架，為統一多模態理解與生成模型提供了理論與技術支持。
推動開源社群與研究發展：作者全面釋出模型與原始碼，促進研究者在 AR/VAR 框架下探索更多下游應用及理論創新，加速生成式 AI 在影像創作、內容理解及跨領域應用的落地與發展。

總結來說，Visual Autoregressive Modeling 透過簡潔而創新的「下一尺度預測」策略，不僅克服了自回歸影像生成的計算瓶頸，還在質量、速度及泛化能力上取得突破，成功將 GPT 式的自回歸模型推向超越擴散架構的新高度。該論文不僅對視覺生成模型設計與訓練有深刻洞察，也為未來多模態智能系統的融合發展奠定了重要基石，是 2024 年度不可錯過的生成式 AI 研究里程碑。

論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905