隨著深度學習技術的快速演進,影像生成模型已成為人工智慧領域中最受矚目的研究方向之一。近期,生成模型在品質、速度與泛化能力上持續突破,尤其在自回歸模型(Autoregressive Models, AR)與擴散模型(Diffusion Models)的競爭中,二者各展所長。然而,傳統自回歸模型在影像生成上仍受到高計算成本及生成速度緩慢的限制。來自 Tian 等人於 2024 年 NeurIPS 的獲獎論文《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》則提出一種全新的自回歸視覺生成範式——Visual Autoregressive modeling(簡稱 VAR),徹底顛覆以往的自回歸影像生成思維,實現了性能與效率的大幅躍進。
研究背景與動機
自回歸模型在自然語言處理領域憑藉 GPT 類架構展現出強大的語言理解與生成能力,靠「逐字預測(next-token prediction)」的策略,成功實現高效且連貫的文本生成。然而,將此種策略直接套用至影像生成,面臨多維像素空間的高維度挑戰,且傳統以行掃描(raster-scan)像素順序逐一生成的模式,導致計算資源龐大,生成速度緩慢,且模型難以擴展至更大尺寸或更高解析度的影像。
另一方面,擴散模型因其迭代逐步去噪的獨特設計,在圖像品質與多樣性上取得顯著成績,近期甚至成為新的領域標竿。然而,擴散模型在訓練與推論過程中因需多階段迭代步驟,速度較慢,且運算成本高。這激發了研究者思考:如何讓自回歸模型通過結構與預測目標的革新,同時兼具擴散模型在生成質量與效率上的優勢?
核心方法與技術創新
VAR 的核心創新在於「改變自回歸生成的粒度」,它不再以「逐像素」或「逐 token」的方式從左上至右下掃描預測下一個像素,而是採用一種「由粗到細」的多尺度生成策略,稱為「next-scale prediction」或「next-resolution prediction」。簡單來說,VAR 首先生成一個低解析度的整體影像,接著以此基礎作為條件,逐步預測更細緻的高解析度影像細節,類似於將生成任務拆解成多個解析度層級的預測問題。
此方法解決了傳統自回歸模型生成長序列時容易面臨的效率瓶頸,更有效利用上下文信息,提升生成品質與一致性。具體實作方面,VAR 使用 Transformer 架構來捕捉多尺度信息,配合下一尺度的圖像預測任務,以多階段的生成過程實現影像細節逐層豐富,路徑清晰且計算負擔相對較低。
此外,VAR 在訓練目標設計上也有所突破:它將影像生成視為多尺度概率預測問題,跳脫以往僅在像素或 patch 級別的限制,能更靈活地捕捉全球與局部結構。從數學角度看,這相當於在不同解析度層級定義條件機率分布,逐步學習使影像分布模型更健壯且泛化能力強。
主要實驗結果
在實驗評估中,VAR 對比傳統自回歸基線模型以及先進的擴散 Transformer(Diffusion Transformer, DiT)模型,表現出極為亮眼的成果。於工業標準的 ImageNet 256x256 影像生成任務中,VAR 將傳統自回歸模型的 Frechet Inception Distance(FID)從 18.65 驟降至 1.73,Inception Score(IS)也從 80.4 大幅躍升到 350.2,這代表生成圖像的質量和多樣性均有革命性提升。
除了質量,VAR 的推論速度亦優於擴散 Transformer,達到約 20 倍的加速效能,顯著降低了部署門檻與運行成本。此外,VAR 在數據利用效率、模型擴展性上均展示出優勢。研究團隊進一步證實,VAR 在模型規模擴張時呈現出與大型語言模型相似的「縮放律(Scaling Laws)」,其性能提升呈線性對數關係,相關係數接近 -0.998,這證明了 VAR 在大規模訓練下的可持續擴展潛力。
值得一提的是,VAR 展現出良好的「零樣本泛化能力(zero-shot generalization)」,能無需額外微調即成功應用於多個下游視覺任務,包括圖像修補(image in-painting)、擴展(out-painting)與編輯操作,此能力使 VAR 不僅是一個生成模型,更是具有高度靈活性的視覺理解與應用框架。
對 AI 領域的深遠影響
全新 VAR 範式的提出,不僅重塑了自回歸影像生成的研究生態,更在多方面促使視覺生成技術突破傳統框架限制。由「粗到細」的多尺度預測策略減輕了模型面對高解析度圖像時的計算與訓練負擔,讓自回歸模型重拾競爭力,甚至在某些指標上超越現今擴散模型。
此外,VAR 展示了類似大型語言模型的兩大重要特性——規模縮放法則與零樣本任務泛化,這暗示著自回歸框架下的視覺模型將可能形成與自然語言處理領域一樣的「通用學習平台」。這種跨模態的深層共通性不僅對多模態 AI 發展意義重大,也為未來實現視覺與語言的統一表示與生成打下堅實基礎。
此外,作者團隊全面開放模型與代碼,推動社群對自回歸及多尺度生成模型的研究與應用,使得 VAR 不僅是理論突破,更是實務上的重要工具,有望在藝術創作、內容生成、醫療影像等多元領域引發廣泛應用革命。
總結
整體來說,《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》透過顛覆傳統影像自回歸生成的預測範式,創造出具備極高生成品質與計算效率的 VAR 模型。其成功融合多尺度訊息,有效突破高維影像生成的挑戰,並且與大型語言模型展現出相似的擴展與泛化能力,為視覺生成領域帶來新方向。對具備 AI 基礎知識的工程師與研究生而言,VAR 提供了一個兼具理論深度與產業價值的研究典範,非常值得深入探究與實踐。
論文資訊
📄 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
👥 Tian, Jiang, Yuan, Peng, Wang
🏆 NeurIPS 2024 · Best Paper
🔗 arxiv.org/abs/2404.02905
沒有留言:
張貼留言