在圖像生成領域,如何在保證生成品質的同時提升生成速度與模型的可擴展性,一直是學術界與工業界的核心挑戰。傳統的自回歸(Autoregressive, AR)模型雖然在語言建模中極為成功,卻因逐像素或逐區塊的序列預測過程,面臨生成速度慢和可擴展性受限的困境。而擴散模型(Diffusion Models)與變分自編碼器(VAE)等方法則在圖像生成質量上取得顯著突破,但往往代價是計算資源的高負擔和推理效率的折衷。針對這些瓶頸,Tian 等人於 NeurIPS 2024 發表的最佳論文《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》提出了一種全新的視覺自回歸建模范式——Visual AutoRegressive modeling(VAR),徹底改寫了圖像自回歸生成的玩法和效率。
研究背景與動機
傳統 AR 圖像生成模型通常模仿語言模型的方式進行訓練,即將圖像轉換為一維像素或token序列,依次進行「下一個像素」或「下一個token」的預測,推理過程為線性且序列較長,導致推理速度緩慢且難以擴展。這種細粒度的預測方式限制了模型在高解析度圖像生成任務上的表現。相較之下,Diffusion Transformer(DiT)與其他擴散模型採用隨機擾動和逐步去噪的策略,雖擁有優異的生成質量,但在推理時間和有效數據利用效率上存在缺陷。對此,作者團隊提出,若能改變圖像生成的基本預測單元與具體方式,或許能同時兼顧生成質量與速度。
核心方法與創新
VAR 的核心創新在於將自回歸生成從傳統的「逐token預測」轉變為一種多尺度的「下一尺度預測」(Next-Scale Prediction)。簡言之,VAR 並非直接從左到右、從上到下以像素級別生成圖像,而是在低解析度圖像基礎上逐層放大,每一層模型訓練自回歸地預測下一個更高解析度的圖像細節。
具體而言,VAR模型首先生成一幅粗糙的低解析度圖像,然後依次「放大」到更細節的解析度階段。在每個尺度上,模型僅需預測該尺度新增的細節部分,且利用已生成的低尺度信息輔助預測,達到高效且精準的圖像補全。此方法本質上改變了AR模型的順序建模維度,由空間像素序列轉變為多尺度層級結構,使得模型能夠快速學習圖像的全局結構以及細節分佈,並顯著提升並行化能力,達成推理加速。
此外,VAR 的架構基於Transformer,結合了自回歸的生成機制與Transformer捕捉長距離依賴的優勢,並通過專門設計的多尺度位置編碼與跨尺度信息傳遞機制,有效融合不同解析度層的特徵,增強了模型的預測能力與穩定性。
主要實驗結果
在 ImageNet 256×256 這一標準高解析度圖像生成基準上,VAR展現了令人驚艷的性能提升。實驗中,VAR相較於強大的AR基線模型,Frechet Inception Distance(FID)指標從 18.65 驟降至 1.73,Inception Score(IS)從80.4躍升到350.2,這無疑是質的飛越。
更令人矚目的是,VAR在推理速度上展現了約20倍的加速,明顯優於傳統AR模型與擴散模型。相比Diffusion Transformer,VAR不僅在圖像質量、更在推理速度、數據效率及模型擴展性上全方位超越。通過大規模擴展參數量,VAR模型遵循與大型語言模型(LLM)類似的冪次定律(power-law scaling laws),其性能提升與模型規模呈現近乎線性的強相關(相關係數約 -0.998),顯示了強大的可擴展潛力。
進一步,在下游零樣本任務(zero-shot tasks)方面,VAR同樣展現不俗能力,包括圖像修補(in-painting)、拓展畫布的外擴(out-painting)、以及圖像編輯,展現出類似語言模型“無需微調即可推廣到多任務”的靈活泛化能力,這在過去圖像生成模型中尚屬罕見。
對 AI 領域的深遠影響
VAR提出並驗證了一種截然不同的視覺自回歸生成理念,成功克服了傳統AR圖像生成速度緩慢、難以擴展的瓶頸,再度證明基於Transformer的自回歸模型不僅限於文字,亦能在視覺生成領域與擴散模型一較高下。這種從「純像素依序生成」到「多尺度逐層精煉」的范式轉變,為未來高效圖像生成、視頻生成甚至跨模態生成開啟了新思路。
此外,VAR展現出類似大型語言模型的「Scaling Laws」與「Zero-shot generalization」兩大關鍵特性,這是視覺生成領域首次完整複製這兩個屬性。換言之,視覺自回歸模型有望像GPT系列模型一樣,憑借大規模數據與模型規模,具備更強泛化、更多功能與易於擴展的潛力,推動「通用視覺生成模型」的實現。
最後,作者團隊公開了所有模型及程式碼,促進學界與產業界對AR及VAR模型的深入探索與應用拓展,未來不僅能推動更高效、精準的圖像生成技術誕生,也為多模態理解與生成、智能圖像編輯、虛擬現實與增強現實等前沿領域注入強大動能。
總結
總體而言,《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》以創新多尺度自回歸生成觀點,成功結合Transformer強大表徵與多尺度結構,實現了前所未有的圖像生成速度與品質兼備。它不僅刷新了視覺AR模型性能天花板,也揭示了圖像生成模型向更通用、更靈活方向發展的潛力,為AI視覺生成社群帶來極具啟發性的新方法論與實踐指引。對於AI工程師與研究生而言,深入掌握VAR的方法論與架構設計,將助力在視覺生成及相關領域開展更具突破性的研究與應用。
論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:
張貼留言