2026年5月28日 星期四

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 深度簡介

隨著深度學習技術的飛速發展,圖像生成成為人工智慧領域內極具挑戰與應用前景的問題。傳統的自回歸(Autoregressive, AR)模型,透過逐像素或逐區塊的「下一個位置(next-token)」預測來生成圖像,雖然在語言模型領域取得巨大成功,但因為龐大且冗長的序列長度,導致其在圖像生成上的速度和效果受限。於2024年NeurIPS大會榮獲最佳論文獎的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》一文,由Tian等人提出一套創新且高效的視覺自回歸生成新範式——Visual Autoregressive modeling(簡稱VAR),徹底重新定義了自回歸建模在圖像生成的形式,實現了生成品質與速度的重大突破。

研究背景與動機

現有主流的圖像生成模型大致可分為三類:自回歸模型、生成對抗網路(GAN)以及擴散模型(Diffusion Models)。其中擴散模型因其高質量的生成效果與穩定訓練成為近年焦點,甚至在某些任務中超越了傳統自回歸模型。然而,擴散模型通常需要多步長推理,導致推論速度緩慢。傳統AR模型的「pixel-wise」逐像素條件生成雖然理論上具備強大能力,但序列長度過長使其訓練與推理耗時昂貴,且難以擴展。

作者團隊觀察到,圖像擁有多層次、多尺度的結構特性,若能改變AR模型的預測目標,從「下一個像素」改為「下一個解析度」或「下一個尺度」,便可大大縮短序列長度,並捕捉圖像的全局與局部信息。基於此構想,他們提出了以「coarse-to-fine next-scale prediction」為核心的新型AR建模策略,藉此在速度與品質上雙向突破,自動從低解析度到高解析度逐層生成影像。

核心方法與創新點

VAR創新的核心在於將自回歸的序列結構從「空間像素序列」徹底轉變為「多尺度影像序列」。具體而言,模型不再逐像素生成高解析度影像,而是先生成極低解析度的粗略圖像,再以此作為條件,逐層預測較高解析度的圖像,直到還原出完整圖像細節。

  • Next-Scale Prediction 概念:傳統AR視覺模型的「下一像素預測」容易因序列過長而效率低下;VAR透過「下一尺度預測」策略,以金字塔結構逐層生成圖像,顯著縮短序列長度,提升訓練與推理效率。
  • Transformer 結構的優化應用:VAR沿用Transformer的強大序列建模能力,結合多尺度信息學習,通過自注意力機制捕獲跨尺度的全局與細節依賴,使模型能精確預測下一解析度影像分布。
  • 可擴展性與系統性能:研究中指出,VAR模型隨著規模擴大呈現類似大型語言模型(LLM)的power-law scaling定律,且具備高度的數據利用效率,推理速度比現有AR及擴散變體快約20倍,展示了優越的工程應用前景。

主要實驗與定量成果

作者在標準圖像生成基準ImageNet 256×256上,對比了VAR與多種先進模型的性能。

  • 質量指標大幅改良:FID(Fréchet Inception Distance)從基準AR模型的18.65提升至1.73,Inception Score(IS)由80.4提升至350.2,提升幅度驚人,甚至超越目前主流擴散Transformer(Diffusion Transformer, DiT)。
  • 推論速度提升顯著:VAR在推理階段速度約為傳統AR模型的20倍,遠快於擴散模型,顯著降低了實際應用的時延與計算資源消耗。
  • 多維度能力超越DiT:除圖像品質與速度外,VAR在資料效率、模型擴展性與零樣本(zero-shot)任務泛化方面均顯著優於擴散Transformer,表現更為穩健。
  • 零樣本泛化能力:VAR展現了與大型語言模型類似的零樣本學習能力,可直接應用於影像修補(in-painting)、延伸(out-painting)及編輯等下游視覺任務,展現模型通用性及強大表達力。

對 AI 領域的深遠影響

VAR的成功不僅是圖像生成效率與質量的重大跨越,更象徵自回歸模型在視覺領域的新生機。整體而言,VAR帶來了幾項影響:

  1. 方法論層面突破:藉由「多尺度下一解析度預測」重新定義AR模型的生成順序,打破了影像生成必須線性像素序列化的瓶頸,提供了視覺數據高效建模的新途徑。
  2. 促成類語言大型生成模型(LLMs)特性的跨領域複製:VAR首次在圖像生成領域證明了擴展定律(Scaling Laws)及零樣本泛化能力的有效性,這兩者是LLMs成功的關鍵要素,顯示視覺和語言生成可以採用更多共通原則。
  3. 工程與應用推廣潛力:VAR以其高效率、高質量與高擴展性的特點,使得在現實場合需兼顧速度與品質的視覺生成任務更具可能性,推動例如AR/VR、多媒體內容自動生產及創意工具研發的革新。
  4. 研究社群的資源貢獻:團隊已公開所有模型及程式碼,為自回歸圖像生成及統一視覺語言學習領域提供了寶貴資源,促進相關技術的廣泛探索與應用。

總結

《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》巧妙融合了多尺度圖像結構和自回歸序列建模優勢,透過「粗到細」的解析度逐層生成策略,成功打破了傳統自回歸圖像生成的性能天花板。透過多項實驗和理論驗證,VAR不僅達成了高效且高質量生成,更在擴展規模與泛化能力上達到了與大型語言模型相當的水準,為圖像生成研究與應用開啟了新紀元。這些創新為後續融合視覺與語言生成模型提供了寶貴借鑒,推動AI生成技術邁向更廣泛深入的發展。


論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:

張貼留言