2026年5月22日 星期五

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度解析

隨著生成模型在影像領域的飛速發展,尤其是基於變分自編碼器(VAE)、生成對抗網路(GAN)與擴散模型(Diffusion Models)的崛起,如何平衡生成品質、推理速度與訓練效率,成為現階段影像生成研究的重要焦點。傳統自回歸模型(Autoregressive Models,AR)因其優秀的理論性質及卓越的生成連貫性,長期受到關注,但往往因序列長度過大導致推理緩慢,且在高解析度影像生成表現上較難匹敵最新的擴散模型。NeurIPS 2024 最佳論文《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》提出一種全新視覺自回歸建模方法——VAR(Visual Autoregressive modeling),透過「粗到細的尺度預測」改寫傳統自回歸的影像生成流程,突破了先前 AR 模型的瓶頸,實現了更優秀的生成質量與更快的推理速度,並展現了類似大型語言模型(LLMs)的擴展法則及零樣本泛化能力。

研究背景與動機

自回歸模型透過串列預測資料中的下一個元素,理論上能完整刻畫資料分布,且在自然語言處理領域達到 GPT 系列的重大成功。然而,直接將此思維套用於影像生成通常面臨序列過長問題(例如,256x256 彩色圖像約含 196,608 個像素/通道單位),導致推理速度非常緩慢;此外,逐像素預測的方式使得模型難以捕捉大尺度結構與多層次語義。反觀擴散模型,利用逐步去噪策略,雖然生成圖像質量卓越,但推理過程中需要大量重複采樣,計算資源高昂。該論文團隊鑑於此,意圖探索一種改變預測維度與順序的新型自回歸方法,希望既能繼承自回歸模型的優點,又提升速度與生成品質,促使 AR 模型在影像生成領域與擴散模型較量中脫穎而出。

核心方法與創新

論文提出的 Visual Autoregressive Modeling (VAR) 顛覆傳統 AR 模型「下一個像素(Token)預測」的策略,改採「下一尺度(Next-Scale)預測」方式。具體來說,VAR 不是從左上至右下像素依序生成,而是從極低解析度的粗略圖像開始,逐層透過自回歸 Transformer 預測更高解析度的細節,即一種粗到細的多解析度自回歸生成策略。

這一策略的核心優勢包括:

  • 大幅縮短序列長度:低解析度圖像擁有極短的序列,模型先學習全局結構,再逐步補充細節,降低了 Transformer 對序列長度的敏感性。
  • 自然的多尺度生成:模仿人類繪畫過程,先描繪整體構圖,再補上細節,使生成更符合影像的層次結構。
  • 擴散模型無法輕易達成的高速推理:因為 VAR 在每個尺度的預測是一次性完成,避免如擴散模型般的重複迭代采樣,提高約 20 倍的推理速度。
  • 模型架構創新:作者設計專門適配「next-scale prediction」的自回歸 Transformer 架構,並透過尺度嵌入等技術加強模型對多層次資訊的理解能力。

此方法既保留自回歸模型的理論優勢,也解決了長序列困境,促使 GPT 類 AR 模型在影像生成任務上首次超越擴散模型。

主要實驗結果

研究團隊在 ImageNet 256×256 基準數據集上進行評估,VAR 相較於傳統 AR 基線改進非常顯著,具體數據包括:

  • FID(Frechet Inception Distance):由18.65大幅降至1.73,表明生成圖像更接近真實分布,品質提升明顯。
  • IS(Inception Score):由80.4躍升至350.2,顯示生成多樣性及品質大幅優化。
  • 推理速度:達到約 20 倍加速,強化了 VAR 在實際應用場景下的可操作性。

此外,VAR 在多個維度均超越擴散 Transformer (DiT):如數據效率(以更少訓練數據達成同等甚至更好效果)、擴展性(模型容量擴大時性能持續線性增長)、圖像生成品質與速度等。實驗中,透過大規模訓練,VAR 模型展現了類似大型語言模型(LLM)中的明顯擴展定律,且統計相關係數接近 -0.998,這是強有力的證據,說明視覺生成模型也能擁有可預測且穩定的性能提升軌跡。

最後,VAR 還展示了卓越的零樣本 (zero-shot) 泛化能力,能直接應對影像修補(in-painting)、擴展(out-painting)與編輯等下游任務,無需針對性微調,實現了自回歸模型第一次在視覺多任務中達成此類靈活使用。

對 AI 領域的深遠影響

這篇論文的貢獻不僅在於提出一種新穎且高效的影像生成框架,更帶來多重理論與實務層面的啟示:

  1. 重塑視覺自回歸模型:VAR 將自主回歸由傳統像素序列預測解放出來,開啟了以多解析度尺度結構為核心的建模思路,有望作為自回歸模型升級的典範,推動視覺生成技術躍進。
  2. 生成模型統一學習視窗的新可能性:作者公開完整代碼與模型,期望研究社群能藉此推動自回歸影像模型與擴散、GAN 等方法間的融合與比較,進一步為視覺與語言生成架構尋找共通法則與統一解。
  3. 引入類似 LLM 的擴展定律與泛化能力:VAR 是首個在視覺生成領域展現明顯擴展定律和零樣本任務泛化的大型自回歸模型,這本質上拓展了大規模模型理論應用範圍,為構建萬用視覺生成與理解模型奠定基礎。
  4. 實務應用前景廣闊:基於 VAR 框架的模型不僅能快速生成高質圖片,還能實時在編輯、修補等任務中發揮作用,兼具精准度與效率,適合多種工業級應用場景,如影像編輯軟體、虛擬內容創作、混合現實等。

總結來說,Visual Autoregressive Modeling 以其創新尺度逐步預測策略,成功解決了長序列限制,提高了生成效率與品質,並首次將自回歸模型推上與擴散模型競爭的舞台。這不僅代表視覺生成的技術里程碑,更開啟了融合語言與視覺大型模型層級理論的新篇章。對於正在尋求更高效、多用途生成模型的工程師與研究者而言,VAR 為未來多模態 AI 技術演進提供了關鍵路徑與啟發。


論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:

張貼留言