2026年6月25日 星期四

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度解析

隨著人工智慧在圖像生成領域的高速發展,如何兼顧生成品質、效率與模型可擴展性,成為現有方法亟待突破的瓶頸。傳統自回歸(Autoregressive, AR)模型通常以像素或圖像 token 的「逐點預測」方式進行,採用掃描線(raster-scan)策略來擬合圖像分布,這使得其生成速度較慢,且難以突破對高解析度圖像的生成限制。另一方面,擴散模型(Diffusion Models)經由逐步噪聲去除的機制,展現了優秀的圖像品質和生成多樣性,但在推理速度與資源消耗上不盡理想。

本篇由 Tian 等人發表於 NeurIPS 2024 與榮獲最佳論文的作品《Visual Autoregressive Modeling (VAR): Scalable Image Generation via Next-Scale Prediction》提出了一種全新的視覺自回歸生成範式,以「逐階段尺度預測(next-scale prediction)」取代傳統的逐 token 預測,重新定義 AR 模型在圖像生成中的學習方式。該方法兼具快速推理、卓越質量與良好可擴展性,不僅超越現有 AR 基準,甚至首次在多項指標上力壓擴散模型。

研究背景與動機

在自回歸圖像生成領域,多數經典模型如 PixelRNN、PixelCNN 皆以像素為序列元素,依序預測下一像素值。此舉雖然保證生成樣本的合理性與連續性,但極大限制了生成速度與可處理的圖像解析度。此外,近期蓬勃發展的擴散模型通過多階段噪音過程生成高品質圖像,但計算成本與推理延遲仍為實際應用的隱憂。

作者觀察到,自然圖像本身具有多層次的結構與解析度特性,若可改變自回歸生成順序,改從低解析度向高解析度循序細化,便可能兼顧生成效率與表現。因此他們提出將 AR 學習任務從「逐點預測」改為「逐尺度預測」,即在粗糙級別預測影像後,再依序生成更細節、解析度更高的影像,讓模型學習圖像跨尺度的生成分布,稱之為 Visual Autoregressive modeling (VAR)。

核心方法與創新點

VAR 的核心革新在於將自回歸框架從標準的圖像「掃描線像素預測」改為「多尺度圖像逐層細化」。具體來說,VAR 依序生成一系列漸進提升解析度的圖像層級,如 8×8 → 16×16 → 32×32 直到 256×256,模型在每個層級預測下一解析度的圖像內容,充分利用「低解析度提供全局結構、高解析度聚焦細節」的優勢。

此方法以 Transformer 作為基本架構,將輸入的低解析度圖像融入條件資訊,藉由 Transformer 強大的序列建模能力捕捉不同解析度間的關聯與細節呈現。與傳統 AR 模型必須長序列依次生成像素的方式不同,這種「次尺度生成」(next-scale prediction)大幅縮短生成序列長度,提升推理速度,減少模型負擔。

此外,VAR 同時保留了自回歸模型能夠精確擬合概率分佈的特性,具備良好的泛化能力及生成多樣性。論文中也提出特殊的訓練策略和結構設計以強化模型在尺度間的上下文利用,確保不同解析度層級之間的信息暢通。

主要實驗結果

實驗部分,作者在 ImageNet 256×256 資料集上,和現有的強勁基準(AR baseline 與擴散 Transformer,Diffusion Transformer (DiT))進行全面比較。結果顯示 VAR 將 Frechet Inception Distance (FID) 從 18.65 飛躍降低到 1.73,Inception Score (IS) 由 80.4 提升至 350.2,生成品質大幅躍升的同時推理速度約提升 20 倍,極大改善了效能瓶頸。

更重要的是,VAR 在圖像品質、數據效率、推理速度與模型擴展性等多個維度均優於當前最先進的擴散模型 DiT,展現了強勁的競爭力。作者更透過擴張 VAR 模型規模,發現類似大型語言模型(LLM)的尺度定律(scaling laws),模型效能隨參數量呈現清晰的冪律增長,且擁有負相關係數接近 -0.998 的極高線性關係,驗證 VAR 在擴大規模時的穩定與有效性。

此外,VAR 也展現了跨任務的零次學習(zero-shot generalization)能力,包括圖像修補(in-painting)、擴展(out-painting)以及圖像編輯等多項下游任務,不需額外微調即可達到優秀效果,這在視覺生成模型中屬於較罕見的通用能力,與 LLM 的零次學習能力類似。

對 AI 領域的深遠影響

VAR 的提出不僅刷新了自回歸圖像生成的認知框架,亦挑戰了以往擴散模型在圖像生成領域的統治地位。這個方法以一種直觀且結構化的 next-scale 預測機制,大幅改善了自回歸模型的速度與質量矛盾,為圖像生成技術的高效化與高質量化指出新的方向。

最值得關注的是,VAR 具備可擴展性與通用性,透過簡潔的多尺度訓練架構和 Transformer 設計,成功地將語言模型的兩大核心特性——規模定律與零次學習能力——引入視覺生成領域。未來隨著模型規模的進一步擴大,VAR 有望成為圖像生成和多模態 AI 發展的基石,推動跨領域的統一表徵學習。

同時,作者釋出完整模型與程式碼,促進學界與業界對 AR 與 VAR 模型在創作、視覺理解乃至交互應用的探索,減少依賴龐大計算資源的擴散模型,提升整體 AI 視覺生成系統的可及性與實用性。

總結來說,《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》是一篇開創性的研究,突破了既有自回歸生成的限制,提出一種全新且高效的多尺度預測策略,既提升了生成品質,也大幅加快了推理速度。此成果在生成模型理論與實踐上皆具有重大意義,預示著未來視覺生成模型將進入一個更加高效且泛用的新時代。


論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:

張貼留言