行有餘力則以學文: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

2026年4月9日星期四

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

在生成式人工智慧領域中，圖像生成技術近年來迅速成長，尤其是在深度生成模型如擴散模型（Diffusion Models）與自回歸模型（Autoregressive Models）之間，競爭更趨激烈。傳統的自回歸模型（AR）主要採用「下一個像素（next-pixel）」或「下一個區塊（next-token）」序列預測方法，其優點是理論清晰且生成過程可控，然而其在生成速度及影像品質方面往往落後於擴散模型。而擴散模型雖在圖像質量與多樣性上展現亮眼成績，但計算代價高且推理速度慢，限制了實際應用。針對此，Tian 等人於 NeurIPS 2024 發表的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》提出了一項突破性的創新架構——Visual Autoregressive Modeling (VAR)，並榮獲最佳論文獎。

研究背景與動機
傳統自回歸影像生成模型，依序從左上角像素開始逐步生成，這種標準的光柵掃描方式（raster-scan）存在嚴重的效率瓶頸與長期依賴問題，導致模型難以捕捉全局結構，且生成速度緩慢。另一方面，擴散模型儘管透過反覆多階段擾動與還原獲得優異生成效果，但推理時間長且資源消耗大。因而，圖像生成界長期渴望能結合自回歸模型的高效率與可解釋性，與擴散模型對圖像品質的掌握。為此，VAR從一個全新視角切入，重新定義自回歸學習目標，挑戰「如何在保留AR優點的前提下，翻轉生成速度與質量局限」。

核心方法與創新
VAR最核心的技術突破是將影像生成的自回歸過程改寫為「多尺度（next-scale）預測」：不是逐一預測細節像素，而是先從低解析度圖像開始生成，接著逐層產出更細膩、更高解析度的「後續尺度」，逐漸精細化圖像。這種粗到細的生成過程不同於傳統的下個像素序列預測，而被稱為次尺度預測策略（next-resolution prediction）。

此策略的設計理念相當直白且有效：利用影像在空間層面存在天然的多尺度結構特性，VAR模型在每個尺度採用類似GPT架構的自回歸Transformer，每層只需預測下一階解析度的補充資訊，避免了像素級的長序列依賴，顯著減少計算負擔，促進模型快速收斂與良好泛化能力。此種架構還原了圖像的自然分布，讓模型學習到更系統化且直觀的視覺資訊。

更重要的是，VAR成功融入了現代Transformer技巧，如層次化設計與高效注意力機制，保證模型在擴展規模時仍保持穩定。論文中作者針對模型擴展性展開實驗，證實VAR遵循絕佳的「規模法則（scaling laws）」，與大型語言模型（LLM）類似，顯示極具潛力成為視覺領域的通用預訓練框架。

主要實驗結果
在多項嚴苛的評測中，VAR展現出驚人的成績突破。以ImageNet 256×256圖像生成基準為例，VAR相較於原本自回歸模型，Frechet Inception Distance（FID）大幅從18.65降至1.73，Inception Score（IS）則由80.4提升至350.2，品質提升不尋常地顯著。更令人驚艷的是，生成速度提升約20倍，充分滿足實務應用對效能要求。

除了量化指標，VAR在圖片質感與細節還原層面也勝過當前最強擴散變種——Diffusion Transformer（DiT）。多角度評估顯示，VAR在圖像品質、推理速度、訓練資料效率及模型規模擴張方面均佔優勢，突破了過往AR模型與擴散模型的性能天花板。

值得一提的是，VAR還展現出類似大型語言模型的「零次學習能力（zero-shot generalization）」，在下游多種視覺任務上不需額外微調即可應用，包括圖像修復（in-painting）、圖像拓展（out-painting）以及內容編輯等，顯示此模型具備良好的泛化能力和靈活性。

對 AI 領域的深遠影響
VAR的貢獻不僅僅在於提出一個新的生成範式，而在於系統性地展示了自回歸模型在視覺領域仍有巨大潛能，甚至能超越當前擴散模型的主流地位。這種「次尺度預測」的策略代表了一條混合多尺度結構與序列預測的新路徑，有助於解決生成模型長序列依賴與推理效率瓶頸的難題。

此外，VAR模型遵循規模法則的發現，與LLM相似，啟示視覺生成模型的訓練和擴展可受益於類似語言模型培訓規則，為統一視覺與語言的多模態學習提供理論基礎與方法參考。尤其是零次學習能力的初步展現，更是朝向通用視覺理解與創作模型邁出關鍵一步，未來可望降低不同視覺任務間的遷移成本，提升模型的廣泛適應力。

最後，作者將所有模型與程式碼公開釋出，鼓勵社群持續創新與擴展自回歸技術，生態系統的建構有助於激發更多跨領域應用，推動AI生成技術從理論走向實用，為未來人工智慧影像生成技術劃下新標竿。

總結來說，《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》透過重新定義自回歸影像生成為「次尺度預測」，大幅優化生成效率與品質，結合深度Transformer設計與多尺度建模策略，突破了生成模型的性能瓶頸，引領自回歸模型起死回生，並展現出類大型語言模型的強大擴展與泛化能力。此篇論文不僅提供了新思維，更指明了未來視覺生成模型發展的方向，對深度學習社群具有高度啟發意義與實務價值。

論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905