2026年5月10日 星期日

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction - 深度介紹

在人工智慧領域中,圖像生成技術長期以來一直是研究熱點。隨著深度學習與生成模型的發展,從GAN、變分自編碼器(VAE)、到擴散模型(Diffusion Models)皆展現出優異的生成能力,而自回歸(Autoregressive, AR)模型則因其理論基礎扎實且生成質量穩定,也在圖片生成中佔有重要地位。近期於NeurIPS 2024獲得最佳論文獎的〈Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction〉由Tian等人提出了一種全新的自回歸圖像生成架構——Visual Autoregressive Modeling (VAR),成功挑戰並超越現有擴散模型的表現,為圖像生成領域帶來重要里程碑。

研究背景與動機

傳統自回歸模型在圖像生成中往往採用「逐像素(pixel-by-pixel)」或「逐區塊(patch-by-patch)」的掃描方式,依序預測下一個圖像元素(token),這種「next-token prediction」策略雖理論上能精確建模圖像分布,但實務上存在兩大挑戰:

  • 生成速度緩慢:逐點預測導致推斷時間長,難以擴展至高解析度圖像。
  • 難以捕捉長距離視覺相關性:以固定序列掃描限制了模型捕獲全局資訊的能力。

另一方面,近來擴散模型(如DDPM、DiT)因其生成圖像質量卓越且訓練較穩定而大放異彩,但擴散模型的推理通常需要大量的反覆採樣步驟,推理速度依然較慢且訓練耗費資源。Hug體兩大類模型的瓶頸,迫切需要一種兼具高效推理及卓越生成質量的生成策略。

基於此,作者重新定義自回歸圖像生成的方式,提出「Next-Scale Prediction」的粗到細生成策略,藉此突破傳統逐像素AR模型的速度與品質瓶頸。

核心方法與創新

Visual Autoregressive Modeling (VAR) 的關鍵在於將圖像生成視為多層解析度的「逐尺度預測」問題,而非如傳統方法以單一固定解析度、逐token序列化來建模。具體而言,VAR採取以下策略:

  1. 粗到細的生成流程:從低解析度開始生成一張粗略的圖像,接著逐步預測比前一尺度更高解析度的圖像細節。這樣的「next-scale」或「next-resolution」預測策略將複雜的生成任務拆分為多階段子任務,每階段模型只需專注於補充更細緻的視覺訊息。
  2. 結合Transformer自回歸架構:VAR利用改進後的自回歸Transformer做為基底架構,但不再限制為固定序列長度的像素排列,而是在不同尺度中進行預測,模仿語言模型GPT的機制,帶來更快收斂與更優泛化能力。
  3. 大幅提升推理速度:由於粗尺度圖像尺寸極小,初期生成速度極快;後續細尺度生成則能依靠先前層的預測結果做為輔助,避免重複推理所有像素,使整體推理效率提升近20倍。

此方法具備直覺易懂(coarse-to-fine)且天然符合視覺階層結構的特性,促使模型能有效捕捉圖像全局與局部細節,並在圖像質量與速度之間取得良好平衡。

主要實驗結果

作者在ImageNet 256×256解析度的圖像生成標準測試上,將VAR與傳統自回歸基線及主流擴散模型Diffusion Transformer (DiT)進行詳細比較。實驗結果展現出VAR在多個重要指標上的卓越表現:

  • 生成質量(FID、IS)大幅改善:VAR將FID從18.65驟降至1.73,Inception Score從80.4提升至350.2,均達到頂尖水準,品質明顯超出台式AR模型及擴散模型。
  • 推理速度顯著提升:相較於傳統AR模型及DiT,VAR在生成同等解析度圖像時達成約20倍的加速。
  • 數據效率與可擴展性強化:VAR在數據量有限的條件下仍能保持高生成質量;並且就模型容量擴增而言,VAR展現出類似大型語言模型(LLMs)的「冪次律(power-law)」效應,即模型性能與規模呈現線性相關(相關係數接近-0.998),具備高度可擴展性。
  • 下游任務零樣本(zero-shot)泛化:不只生成,VAR能在圖像修補、擴展與編輯等任務展現優越的零樣本遷移能力,類似GPT和其他大型語言模型的廣泛應用潛力。

對 AI 領域的深遠影響

VAR論文的提出,具有多重重大意義:

  1. 自回歸圖像生成的新範式:此前多數AR模型受限於逐像素生成速度與表現瓶頸,VAR突破既有框架,啟示研究者可利用多尺度協同預測,提升視覺自回歸模型的實用性與效能。
  2. 生成模型的速度與品質兼顧:擴散模型優質但緩慢,AR模型快速但品質待加強,VAR成功結合兩者優點,為高效高質圖像生成技術提供新方向。
  3. 類比大型語言模型層次的成長規律:VAR實驗證明視覺生成模型亦遵循冪次律,並展現零樣本泛化能力,暗示自回歸模型有潛力成為像GPT那樣的視覺大模型,引領新一代多模態AI發展浪潮。
  4. 推動統一多任務視覺模型實現:VAR展現圖片生成、修補、擴展與編輯等多樣任務的通用能力,有望在未來推動以自回歸方式達成更靈活的多功能視覺AI系統。

最後,作者公開了所有模型與源碼,鼓勵社群持續探索這一視覺自回歸新體系,預計該方法將促進研究人員在圖像生成及跨模態學習等方面的創新。

總結

整體而言,〈Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction〉代表了當前視覺生成研究的一大突破。透過將自回歸模型的生成流程從「逐像素」轉向「逐尺度」的粗到細策略,VAR不只在圖像生成質量與速度上達到前所未有的水準,更在理論與應用層面展現出與大型語言模型類似的規模效應與泛化能力。對於希望開發高效、通用、多功能視覺生成系統的研究人員與工程師而言,該論文提供了豐富的靈感與技術基礎,極具參考價值。


論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:

張貼留言