在當前深度學習領域,預訓練(pretraining)技術已經成為推動許多 AI 任務突破的關鍵。特別是在自然語言處理(NLP)領域,如 GPT 系列和 BERT 等模型利用超大規模語料進行自回歸或自編碼預訓練,取得了優異的表現,極大地促進了下游任務的精度提升。
然而,圖像領域的預訓練策略相對較為侷限,主要還停留在監督式的任務上,如 ImageNet 分類預訓練,或者是利用一些對比學習方法進行表示學習。這些方法雖然有效,但通常設計較為複雜,且不同任務間的遷移仍存在挑戰。此外,業界鮮少採用純生成式預訓練方法來建構圖像表示,類似 NLP 領域自回歸視覺生成的研究較少。針對此背景,Chen 等人於 ICML 2020 提出的《Generative Pretraining From Pixels (iGPT)》一文,開創性地探索了以純生成式自回歸方式從像素層面進行圖像預訓練,並成功展現了該策略在多種視覺任務上的強大潛力,因而獲得大會頒發的 Outstanding Paper 獎。
一、研究背景與動機
近年來,自回歸生成模型因 GPT 家族在自然語言處理上的成功而聲名大噪,該類模型僅通過預測下一個 token,便能從大量無標註文本中學得豐富的語言知識和語境結構,展現出強大的表徵學習能力。反觀視覺領域,許多生成模型如 PixelCNN、PixelRNN 等,雖然也嘗試從像素單位生成圖像,但多局限於圖像生成品質而非用於下游任務的通用表示學習。
本論文作者主要思考如果能直接借鏡 NLP 中自回歸預訓練的優勢,將 Transformer 架構應用於整張圖像像素序列的生成(即從圖像最細微的像素層級開始進行建模),是否能學出能廣泛遷移、通用且表徵力強的圖像特徵?這種純 generative pretraining 的方法是否有潛力改變過去視覺領域對於表徵學習的既有框架?
二、核心方法與技術創新
作者提出了一種稱為 iGPT(Image GPT)的純自回歸生成式模型,整體架構沿用 Transformer,核心差異在於輸入形態由「文字 token」轉為「像素 token」。具體做法包括:
- 將彩色圖像 (如 CIFAR-10、ImageNet-32) 轉換為一維像素序列,每個像素由 RGB 三個 channel 的數值表示,通過量化後視為一連串的整數 token。
- 利用標準的自回歸 Transformer 模型,以最大化像素序列的條件概率為目標,完成像素的逐序列生成。也就是說,模型依序預測下一個像素的 RGB 值。
- 與傳統圖像模型一般採用卷積神經網絡 (CNN) 異於此處,模型完全以類似 GPT 的純 Transformer 架構進行訓練,展現 Transformer 在視覺序列建模上潛力。
- 在預訓練階段不依賴任何下游任務監督標籤,單純以生成任務驅動模型參數調整,學習圖像的結構和分佈特徵。
相較於當時主流的對比學習或監督學習預訓練,iGPT 採用無監督且純生成的材料,能夠捕捉圖像的底層結構,對於圖像的全局和局部關係有較強的理解力。此外,此方法強調端對端學習、分布無偏假設,這是將 NLP 領域季節性技術成功移植到視覺領域的創新嘗試。
三、主要實驗結果與分析
本論文在多個視覺基準(主要為 CIFAR-10、ImageNet-32)上進行詳細的實驗,展示了 iGPT 預訓練模型在生成質量、分類性能等方面的優秀表現:
- 圖像生成能力:iGPT 在生成圖像的樣本質量上達到了 PixelCNN 等卷積型生成模型相當的水準,並且生成的圖像樣貌自然且具多樣性。
- 表徵學習能力:模型在完成生成任務後,將預訓練的 Transformer 頭部替換為下游的分類頭,僅利用有限監督標籤進行微調,能取得與當時監督式學習媲美,甚至優越的分類準確率。
- 中間層特徵可迁移性:作者分析發現,iGPT 自回歸預訓練能學出豐富、層次分明且相當通用的圖像表示,這些表示對多種視覺任務都有幫助,展示出較強的泛化能力。
例如在 ImageNet 32x32 根據分類準確率,iGPT 相較於當時常用的卷積網絡和自監督方法均有顯著提升。此證明純生成式預訓練不僅能做到良好的生成,更能有效地支援辨識等識別式任務。論文還論述了模型大小、訓練策略與數據規模對結果的影響,為後續相關研究奠定了實驗基礎。
四、對 AI 領域的深遠影響
iGPT 一文的意義在於首次系統性地提出並驗證了基於 Transformer 的純生成式像素預訓練策略,開啟了視覺領域從像素層級分步生成(而非高階表徵學習)的新路徑。其帶來的深遠影響主要包含:
- 跨模態預訓練方法類比:論文有效串連 NLP 自回歸生成與視覺生成領域,證明了 Transformer 在多種數據型態上的泛用能力,成為後續多模態模型開發(如 CLIP、DALL·E 等)的先驅思想。
- 推動無監督與自監督視覺學習:iGPT 顯示純生成式學習即可自動獲得強大且通用的圖像特徵,激勵更多研究投入無標注數據的表示學習,提高數據利用效率,對實務應用具有重要意義。
- 促進 Transformer 在視覺的應用普及:雖然卷積神經網絡長期主導視覺模型設計,iGPT 的成功示範促使 Transformer 成為一種可行且強大的視覺建模架構,後續 ViT、SwinTransformer 等架構均受益於此類思想。
- 催生生成式 AI 圖像模型的發展:iGPT 透過純生成角度示範了圖像預訓練的可行性,為後來基於生成模型的創作與設計應用(如圖像合成、修復、超解析度等)打下基礎。
總結來說,《Generative Pretraining From Pixels (iGPT)》代表了 AI 視覺領域一個重要的里程碑。它突破傳統圖像預訓練模式,以 Transformer 架構聯結了生成與辨識的橋樑,展示在無監督自回歸模擬下可構建高質量且具廣泛應用價值的圖像表徵。這不僅深化了我們對圖像生成與認知間關係的理解,更推動了跨模態、大規模無監督預訓練方法的發展。對未來 AI 研究及工業應用均具有指標性啟示作用。
論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper

沒有留言:
張貼留言