行有餘力則以學文: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度解析

2026年6月16日星期二

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度解析

近年來，生成式模型在影像合成領域掀起革命性浪潮，擁有顛覆傳統圖像生成技術的強大潛力。特別是在自回歸(autoregressive, AR)模型與擴散模型(diffusion models)之間，各有優劣勢的競爭情景令研究社群熱切關注。2024 年 NeurIPS 最佳論文《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》由 Tian 等人提出一種名為 Visual Autoregressive modeling (VAR) 的全新影像生成方法，徹底改寫了 AR 在視覺任務中的學習框架與效能表現，開啟了 AR 模型在生成品質與效率上的新紀元。本文將帶您深入剖析該論文的研究動機、技術架構、實驗成果與其對 AI 領域的深遠意義。

研究背景與動機

傳統的自回歸影像生成演算法，多半依循「由左上到右下逐像素（raster-scan）預測下一像素」的策略，這種「next-token prediction」方法在自然語言處理（如 GPT 模型）中顯現強大能力，但在圖像領域卻面臨嚴峻挑戰。原因在於：影像不同於一維文字序列，其空間結構是二維的且局部特徵間存在複雜的多尺度關係，逐像素預測導致長序列長度、計算負擔沉重，且難以建模長距離的依賴結構，生成速度緩慢且品質受限。

與此同時，擴散模型憑藉從噪聲逐步逆轉過程實現高品質影像生成，已成為當前的主流技術，特別是在圖像細節捕捉與擴展性上展現優勢。然而，擴散模型通常推論速度慢，且訓練與調參成本高昂。這使得研究者渴望找到一種介於 AR 模型直觀且高效擴展、與擴散模型生成效果間的最佳平衡點。

基於此，作者提出了 VAR，試圖將自回歸預測概念跳脫傳統的像素順序，導入多尺度的「next-scale prediction」，每一步預測的是「下一解析度層級」的圖像，從粗糙到細緻逐層遞進，既符合影像的多層次結構，也極大提高模型的訓練速度與生成效率，是對 AR 領域的關鍵突破。

核心方法與創新

VAR 的關鍵創新在於重新定義自回歸學習目標：從「下一像素」預測轉變為「下一解析度層級」預測。具體來說，VAR 將 256×256 的高解析度影像分解成多個逐步細化的尺度版本，模型從極低解析度（例如 8×8）開始進行預測，逐層輸出更高解析度的影像，直到完成全尺寸 256×256 圖像。

這種由粗到細的預測策略有幾大技術優點：

序列長度大幅縮短：影像在低解析度時數據量極少，預測序列縮短數十倍，核心的 Transformer 模型可更快速且高效地學習視覺分布。
捕捉多尺度結構：模型透過每層尺度捕捉不同層次的影像資訊，粗層維持整體構造，細層雕琢細節，符合人類視覺感知的天然順序。
優化推論效率：不必逐像素生成，有效降低計算成本，實現近 20 倍推論加速，適合大規模、多樣化應用。

為了實作該機制，作者設計了專門的 Transformer 架構與訓練流程，在每個尺度上預測出擴展的「高頻細節」，並利用殘差引導逐層合成影像。此方法與傳統的 AR raster scan 方式明顯不同，且更符合圖像分布的真實結構，促進模型學習更深厚的視覺表徵。

主要實驗結果

VAR 在三個核心指標上均展現出對 AR 基線甚至頂尖擴散模型的超越表現。以下為幾項令人印象深刻的數據：

ImageNet 256×256 資料集上，Frechet Inception Distance (FID)：VAR 從傳統 AR 的 18.65 降至 1.73，顯著接近甚至超越部分擴散模型的品質水準。
Inception Score (IS)：由 80.4 飆升至 350.2，這是圖像內容多樣性與真實感的重要評量，VAR 展現出卓越的生成力。
推論速度：VAR 實現約 20 倍的速度提升，突破 AR 模型過去推論緩慢的瓶頸。

此外，作者將 VAR 與 Diffusion Transformer (DiT) 進行多維度比較。結果顯示 VAR 不僅在圖像質量和速度佔優，更在數據效率和模型可擴展性上具備明顯優勢。特別值得一提的是，VAR 模型遵從類似大規模語言模型(LLMs)的尺度律(power-law scaling laws)，連結係數高達 -0.998，充分驗證了 VAR 在擴展能力上的穩健表現。

最後，VAR 不但本身能生成高品質圖片，還展示了優越的「零樣本泛化」能力。在諸如圖像修補（in-painting）、外推擴展（out-painting）與影像編輯等下游任務上，VAR 無需額外微調即可執行，強化了其通用性與實用性。

對 AI 領域的深遠影響

VAR 的誕生不只是一種技術上的突破，更在幾個關鍵層面推動著 AI 生成模型未來的發展：

1. 自回歸模型的復興與超越

VAR 有效打破了傳統 AR 在影像生成中「生成序列過長及速度緩慢」的瓶頸，使得 AR 模型真正有機會媲美甚至超越擴散架構。這不僅強化了 AR 模型在視覺任務中的生命力，也為模型設計帶來新的思路。

2. 多尺度「next-scale prediction」策略的價值

VAR 所引入的由粗到細逐層預測觀念，與人類觀察影像的認知過程高度契合，展現出對複雜空間結構建模的強大能力。這也促使更多研究開始關注多層次、多尺度的生成架構，豐富影像生成方法論。

3. 生成模型的可擴展性與效率革新

VAR展現出 LLM 類似的規模律，這表明透過適當架構設計，視覺生成模型也能獲得良好的擴展潛力，並且顯著提升訓練與推論效率。隨著模型規模擴大，VAR 的性能持續提升，對於處理日益多樣、複雜的視覺任務具備深遠意義。

4. 統一學習與零樣本泛化

VAR 在多種下游視覺任務展現無需微調的即時應用能力，與當前 NLP 領域 LLM 的跨任務泛化性質相呼應，有望推進視覺生成模型的統一框架建構，促進多任務、多場景的無縫應用。

5. 開源推廣與研究生態激活

作者隨論文釋出了完整模型與代碼，鼓勵產學界持續探究和優化自回歸與 VAR 類模型，促進生成模型技術在學術和工業界的廣泛交流合作。

結語

總結來說，《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》這篇 NeurIPS 2024 最佳論文在視覺自回歸生成領域開創了一條嶄新道路。透過巧妙的多解析度「下一層級預測」策略，VAR 不僅顛覆傳統 AR 模型的生成格局，戰勝擴散模型在多項指標上的限制，還實現了推論大幅加速與優異的泛化能力。這些成果不僅擴展了我們對圖片生成本質的理解，也預示著未來視覺生成模型將朝向更加高效、靈活且統一的方向演進。對於具備基礎 AI 知識的工程師與研究生而言，VAR 代表了新世代圖像生成技術的重要里程碑，值得持續關注與深入研究。

論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

行有餘力則以學文

2026年6月16日星期二

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度解析

研究背景與動機

核心方法與創新

主要實驗結果