2026年4月9日 星期四

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

在生成式人工智慧領域中,圖像生成技術近年來迅速成長,尤其是在深度生成模型如擴散模型(Diffusion Models)與自回歸模型(Autoregressive Models)之間,競爭更趨激烈。傳統的自回歸模型(AR)主要採用「下一個像素(next-pixel)」或「下一個區塊(next-token)」序列預測方法,其優點是理論清晰且生成過程可控,然而其在生成速度及影像品質方面往往落後於擴散模型。而擴散模型雖在圖像質量與多樣性上展現亮眼成績,但計算代價高且推理速度慢,限制了實際應用。針對此,Tian 等人於 NeurIPS 2024 發表的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》提出了一項突破性的創新架構——Visual Autoregressive Modeling (VAR),並榮獲最佳論文獎。

研究背景與動機
傳統自回歸影像生成模型,依序從左上角像素開始逐步生成,這種標準的光柵掃描方式(raster-scan)存在嚴重的效率瓶頸與長期依賴問題,導致模型難以捕捉全局結構,且生成速度緩慢。另一方面,擴散模型儘管透過反覆多階段擾動與還原獲得優異生成效果,但推理時間長且資源消耗大。因而,圖像生成界長期渴望能結合自回歸模型的高效率與可解釋性,與擴散模型對圖像品質的掌握。為此,VAR從一個全新視角切入,重新定義自回歸學習目標,挑戰「如何在保留AR優點的前提下,翻轉生成速度與質量局限」。

核心方法與創新
VAR最核心的技術突破是將影像生成的自回歸過程改寫為「多尺度(next-scale)預測」:不是逐一預測細節像素,而是先從低解析度圖像開始生成,接著逐層產出更細膩、更高解析度的「後續尺度」,逐漸精細化圖像。這種粗到細的生成過程不同於傳統的下個像素序列預測,而被稱為次尺度預測策略(next-resolution prediction)。

此策略的設計理念相當直白且有效:利用影像在空間層面存在天然的多尺度結構特性,VAR模型在每個尺度採用類似GPT架構的自回歸Transformer,每層只需預測下一階解析度的補充資訊,避免了像素級的長序列依賴,顯著減少計算負擔,促進模型快速收斂與良好泛化能力。此種架構還原了圖像的自然分布,讓模型學習到更系統化且直觀的視覺資訊。

更重要的是,VAR成功融入了現代Transformer技巧,如層次化設計與高效注意力機制,保證模型在擴展規模時仍保持穩定。論文中作者針對模型擴展性展開實驗,證實VAR遵循絕佳的「規模法則(scaling laws)」,與大型語言模型(LLM)類似,顯示極具潛力成為視覺領域的通用預訓練框架。

主要實驗結果
在多項嚴苛的評測中,VAR展現出驚人的成績突破。以ImageNet 256×256圖像生成基準為例,VAR相較於原本自回歸模型,Frechet Inception Distance(FID)大幅從18.65降至1.73,Inception Score(IS)則由80.4提升至350.2,品質提升不尋常地顯著。更令人驚艷的是,生成速度提升約20倍,充分滿足實務應用對效能要求。

除了量化指標,VAR在圖片質感與細節還原層面也勝過當前最強擴散變種——Diffusion Transformer(DiT)。多角度評估顯示,VAR在圖像品質、推理速度、訓練資料效率及模型規模擴張方面均佔優勢,突破了過往AR模型與擴散模型的性能天花板。

值得一提的是,VAR還展現出類似大型語言模型的「零次學習能力(zero-shot generalization)」,在下游多種視覺任務上不需額外微調即可應用,包括圖像修復(in-painting)、圖像拓展(out-painting)以及內容編輯等,顯示此模型具備良好的泛化能力和靈活性。

對 AI 領域的深遠影響
VAR的貢獻不僅僅在於提出一個新的生成範式,而在於系統性地展示了自回歸模型在視覺領域仍有巨大潛能,甚至能超越當前擴散模型的主流地位。這種「次尺度預測」的策略代表了一條混合多尺度結構與序列預測的新路徑,有助於解決生成模型長序列依賴與推理效率瓶頸的難題。

此外,VAR模型遵循規模法則的發現,與LLM相似,啟示視覺生成模型的訓練和擴展可受益於類似語言模型培訓規則,為統一視覺與語言的多模態學習提供理論基礎與方法參考。尤其是零次學習能力的初步展現,更是朝向通用視覺理解與創作模型邁出關鍵一步,未來可望降低不同視覺任務間的遷移成本,提升模型的廣泛適應力。

最後,作者將所有模型與程式碼公開釋出,鼓勵社群持續創新與擴展自回歸技術,生態系統的建構有助於激發更多跨領域應用,推動AI生成技術從理論走向實用,為未來人工智慧影像生成技術劃下新標竿。

總結來說,《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》透過重新定義自回歸影像生成為「次尺度預測」,大幅優化生成效率與品質,結合深度Transformer設計與多尺度建模策略,突破了生成模型的性能瓶頸,引領自回歸模型起死回生,並展現出類大型語言模型的強大擴展與泛化能力。此篇論文不僅提供了新思維,更指明了未來視覺生成模型發展的方向,對深度學習社群具有高度啟發意義與實務價值。


論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:

張貼留言