行有餘力則以學文: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度簡介

2026年5月28日星期四

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度簡介

隨著深度學習技術的飛速發展，圖像生成成為人工智慧領域內極具挑戰與應用前景的問題。傳統的自回歸（Autoregressive, AR）模型，透過逐像素或逐區塊的「下一個位置（next-token）」預測來生成圖像，雖然在語言模型領域取得巨大成功，但因為龐大且冗長的序列長度，導致其在圖像生成上的速度和效果受限。於2024年NeurIPS大會榮獲最佳論文獎的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》一文，由Tian等人提出一套創新且高效的視覺自回歸生成新範式——Visual Autoregressive modeling（簡稱VAR），徹底重新定義了自回歸建模在圖像生成的形式，實現了生成品質與速度的重大突破。

研究背景與動機

現有主流的圖像生成模型大致可分為三類：自回歸模型、生成對抗網路（GAN）以及擴散模型（Diffusion Models）。其中擴散模型因其高質量的生成效果與穩定訓練成為近年焦點，甚至在某些任務中超越了傳統自回歸模型。然而，擴散模型通常需要多步長推理，導致推論速度緩慢。傳統AR模型的「pixel-wise」逐像素條件生成雖然理論上具備強大能力，但序列長度過長使其訓練與推理耗時昂貴，且難以擴展。

作者團隊觀察到，圖像擁有多層次、多尺度的結構特性，若能改變AR模型的預測目標，從「下一個像素」改為「下一個解析度」或「下一個尺度」，便可大大縮短序列長度，並捕捉圖像的全局與局部信息。基於此構想，他們提出了以「coarse-to-fine next-scale prediction」為核心的新型AR建模策略，藉此在速度與品質上雙向突破，自動從低解析度到高解析度逐層生成影像。

核心方法與創新點

VAR創新的核心在於將自回歸的序列結構從「空間像素序列」徹底轉變為「多尺度影像序列」。具體而言，模型不再逐像素生成高解析度影像，而是先生成極低解析度的粗略圖像，再以此作為條件，逐層預測較高解析度的圖像，直到還原出完整圖像細節。

Next-Scale Prediction 概念：傳統AR視覺模型的「下一像素預測」容易因序列過長而效率低下；VAR透過「下一尺度預測」策略，以金字塔結構逐層生成圖像，顯著縮短序列長度，提升訓練與推理效率。
Transformer 結構的優化應用：VAR沿用Transformer的強大序列建模能力，結合多尺度信息學習，通過自注意力機制捕獲跨尺度的全局與細節依賴，使模型能精確預測下一解析度影像分布。
可擴展性與系統性能：研究中指出，VAR模型隨著規模擴大呈現類似大型語言模型（LLM）的power-law scaling定律，且具備高度的數據利用效率，推理速度比現有AR及擴散變體快約20倍，展示了優越的工程應用前景。

主要實驗與定量成果

作者在標準圖像生成基準ImageNet 256×256上，對比了VAR與多種先進模型的性能。

質量指標大幅改良：FID（Fréchet Inception Distance）從基準AR模型的18.65提升至1.73，Inception Score（IS）由80.4提升至350.2，提升幅度驚人，甚至超越目前主流擴散Transformer（Diffusion Transformer, DiT）。
推論速度提升顯著：VAR在推理階段速度約為傳統AR模型的20倍，遠快於擴散模型，顯著降低了實際應用的時延與計算資源消耗。
多維度能力超越DiT：除圖像品質與速度外，VAR在資料效率、模型擴展性與零樣本（zero-shot）任務泛化方面均顯著優於擴散Transformer，表現更為穩健。
零樣本泛化能力：VAR展現了與大型語言模型類似的零樣本學習能力，可直接應用於影像修補（in-painting）、延伸（out-painting）及編輯等下游視覺任務，展現模型通用性及強大表達力。

對 AI 領域的深遠影響

VAR的成功不僅是圖像生成效率與質量的重大跨越，更象徵自回歸模型在視覺領域的新生機。整體而言，VAR帶來了幾項影響：

方法論層面突破：藉由「多尺度下一解析度預測」重新定義AR模型的生成順序，打破了影像生成必須線性像素序列化的瓶頸，提供了視覺數據高效建模的新途徑。
促成類語言大型生成模型（LLMs）特性的跨領域複製：VAR首次在圖像生成領域證明了擴展定律（Scaling Laws）及零樣本泛化能力的有效性，這兩者是LLMs成功的關鍵要素，顯示視覺和語言生成可以採用更多共通原則。
工程與應用推廣潛力：VAR以其高效率、高質量與高擴展性的特點，使得在現實場合需兼顧速度與品質的視覺生成任務更具可能性，推動例如AR/VR、多媒體內容自動生產及創意工具研發的革新。
研究社群的資源貢獻：團隊已公開所有模型及程式碼，為自回歸圖像生成及統一視覺語言學習領域提供了寶貴資源，促進相關技術的廣泛探索與應用。

總結

《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》巧妙融合了多尺度圖像結構和自回歸序列建模優勢，透過「粗到細」的解析度逐層生成策略，成功打破了傳統自回歸圖像生成的性能天花板。透過多項實驗和理論驗證，VAR不僅達成了高效且高質量生成，更在擴展規模與泛化能力上達到了與大型語言模型相當的水準，為圖像生成研究與應用開啟了新紀元。這些創新為後續融合視覺與語言生成模型提供了寶貴借鑒，推動AI生成技術邁向更廣泛深入的發展。

論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905