在近年來的生成式模型領域,影像生成技術的發展迅速,其中自回歸(Autoregressive, AR)模型與擴散模型(Diffusion Models)各自展現出獨特優勢。自回歸模型以序列預測的方式精確建模資料分布,具備理論基礎穩健及良好多樣性,但在高解析度影像生成時常面臨速度與效率瓶頸;擴散模型則透過逐步去噪善於產生高品質圖像,卻往往伴隨龐大的計算成本。於此背景之下,2024 年 NeurIPS 年會榮獲最佳論文的「Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction」提出一種全新視覺自回歸建模架構(VAR),成功突破自回歸模型過往性能限制,實現了高質量、高速度且可擴展的圖像生成。
研究背景與動機
傳統自回歸影像生成方法多半採用「從左到右、從上到下」的像素序列預測策略,也就是典型的 raster-scan 順序(next-token prediction)。此過程逐像素依序生成,由於影像解析度通常非常高,導致模型生成時間過長,且因序列過長造成模型訓練與推理困難。另一方面,擴散模型因其優秀的生成質量而備受關注,但其慢速推理與巨大的計算圖仍限制了實際應用規模。上述挑戰促使作者重新思考影像自回歸的基本策略,尋求兼顧速度、品質與擴展性的解決方案。
核心方法與創新
本論文的核心貢獻在於提出將傳統逐像素預測轉換為「逐尺度(next-scale)預測」,亦即由低解析度粗略影像開始,逐步產生更高解析度的細節,採用類似 GPT 的自回歸 Transformer 架構,但不再是單純地按像素序列預測下一個像素,而是先行預測較低解析度版本下的整體影像,接著往更高解析度細節推進。此方式具有以下幾項重要創新點:
- 次尺度預測(Next-Scale Prediction):模型學習映射圖像多個不同解析度尺度之間的條件分布,實現由粗至細的生成流程,跳脫了傳統逐像素排序的侷限。
- 高效 AR Transformer 架構設計:結合多尺度特徵與跳接機制,促進精確且快速的條件生成,有效縮短推理時間約 20 倍,達到實用化門檻。
- 良好的比例擴展性:VAR 模型展現與自然語言大型模型(LLM)相似的規模效益,計算成本與效果之間呈現明確的冪律關係(power-law),為視覺領域自回歸模型的可擴展性提供實証。
- 多樣化下游任務零次學習能力:VAR 不僅在圖像生成展現卓越表現,亦自然具備在修補(in-painting)、擴展(out-painting)、編輯等任務中的零樣本泛化能力,類似 GPT 在文本處理的零樣本學習能力。
主要實驗結果
論文在 ImageNet 256×256 解析度圖像生成基準上,對照傳統自回歸模型,VAR 大幅提升生成質量與速度:
- Frechet Inception Distance (FID) 指標從 18.65 大幅降低至 1.73,代表生成影像與真實影像分布的距離顯著縮小,品質大幅提升。
- Inception Score (IS) 從 80.4 提升至 350.2,彰顯模型在生成影像多樣性與清晰度上的明顯優勢。
- 推理速度提升約 20 倍,突顯模型架構在實務應用上的可行性。
- 與同時代擴散模型代表 Diffusion Transformer(DiT)比較,VAR 不僅在影像質量上超越,在推理速度、訓練資料效率與模型擴展性上均有絕佳表現。
- 規模擴展實驗展示,VAR 的性能隨模型與數據規模擴大呈現規律性改善,具備標準 LLM 般的刻度法則(scaling laws),且線性相關係數約 -0.998,驗證理論與實踐高度吻合。
對 AI 領域的深遠影響
VAR 模型的提出,一方面刷新了自回歸模型在視覺生成任務上的性能極限,成功讓 GPT 類的 AR 模型首次超越了擴散模型在主要指標上的表現,破解了長久以來自回歸擴展受限的瓶頸;另一方面,由於它實現了速度與品質的雙贏,提升了視覺生成技術在工業界與研究領域的應用潛力與普及性。
此外,VAR 透過多尺度架構與次尺度預測的策略,豐富了生成建模的理論視野,啟發後續研究可以跳脫單一像素序列思維,在模型架構設計與訓練策略上探索更多的可能性。其所定義的比例擴展定律與零次學習能力,也使影像生成技術開始接近自然語言處理領域大型模型的成功經驗,預示著未來跨模態融合與多任務通用模型的可行性更進一步。
最後,作者團隊將完整程式碼與模型公開,推動自回歸及多尺度視覺生成模型的研究與應用普及,有助建立更開放且多樣的生成模型生態,促進人工智慧視覺領域的技術交流與進步。
總結
總結而言,「Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction」以次尺度預測為突破口,徹底改寫視覺自回歸建模的技術路線,帶來顯著的效能飛躍與應用價值,成為 2024 年 NeurIPS 最佳論文當之無愧。其創新方法不僅為高解析度圖像生成開闢新途徑,更向人工智慧領域展現大型模型跨應用、跨任務的巨大潛能,值得 AI 研究者與工程師深入研讀與借鑑。
論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905

沒有留言:
張貼留言