行有餘力則以學文: Generative Pretraining From Pixels (iGPT) 深度解析

2026年5月29日星期五

Generative Pretraining From Pixels (iGPT) 深度解析

在人工智慧領域中，深度學習模型的預訓練（pretraining）已成為提升多項任務效能的關鍵技術。近年來，自然語言處理（NLP）領域因為 GPT 系列模型的成功，展現了「大規模無監督預訓練」與下游任務微調（fine-tuning）的強大效果。這種以自回歸生成的語言模型來預先學習豐富語言表徵的做法，促使研究者思考：是否能以類似的策略用於視覺數據？而「Generative Pretraining From Pixels (iGPT)」正是在這樣的背景下誕生，透過純像素級的自回歸預訓練，探索將語言模型架構成功引入影像生成與理解的新思路。

研究背景與動機

在影像領域，主流的深度學習方法多依賴卷積神經網路（Convolutional Neural Networks, CNN）來提取空間特徵，並在大量標註數據上訓練，以達到良好的分類及生成能力。然而，相較於 NLP 領域的自回歸語言模型架構，視覺領域尚缺乏能從原始像素序列中進行大規模無監督預訓練的標準方法。過去嘗試多利用圖形生成對抗網路（GAN）、自編碼器或變分自編碼器（VAE）來學習影像分佈，但往往結果無法明確應用於下游任務的性能提升。

因此，Chen 等人提出 iGPT，即「從像素進行生成性預訓練的模型」，嘗試將 Transformer 這種在語言模型中證明有效的架構，直接應用於像素序列，使用純粹自回歸的方式建模圖像分布，期望藉此促進影像理解的泛化能力與下游任務的效能。

核心方法與創新點

1. Transformer 自回歸架構於像素序列：iGPT 首先將一張圖像由像素值（一維序列）展開，每一個像素點視為序列中的一個元素，可能包含 RGB 多維通道。透過將此像素序列餵入 Transformer，自回歸地預測序列中每個位置的像素值。這與語言模型預測下一字元的方法高度相似，都是藉由前文上下文資訊來逐步生成序列。

2. 純像素空間建模：先前方法多半是經過特徵壓縮或特徵圖形式建模，iGPT 則在較低維度且無空間特徵結構的像素空間直接建模。這使模型在學習時需要捕捉更細緻像素間的語義與結構相關性，相當具挑戰性。

3. 大規模無監督預訓練：iGPT 採用 ImageNet 等大型數據集的圖像，透過無標註的像素重建任務進行預訓練。設計目標是生成式模型能夠通過大量照片學習到深層次圖像表示，而非直接針對分類任務進行監督學習。

4. 下游任務微調與表現：完成預訓練後，iGPT 將模型輸出序列最後層的特徵向量輸入分類頭，用於下游任務如圖像分類。透過微調，模型能將原本的生成式能力轉化為強大的辨識能力，達到超越部分傳統卷積網路的效果。

主要實驗結果

透過大量實驗，論文證實了 iGPT 的有效性和潛力：

生成品質測試：雖然 iGPT 不如專門設計的 GAN 在生成細節與影像真實感上取勝，但它已能較好地捕捉圖像整體結構，例如形狀與大尺度紋理，驗證了自回歸預訓練在影像生成上的基本可行。
ImageNet 分類任務：在 ImageNet-1k 上進行無監督預訓練後，透過微調，iGPT 模型在圖像分類準確率上達到與部分同期卷積網路相當的水準，彰顯了純生成式預訓練對下游辨識任務的實際效益。
特徵通用性與遷移學習：模型預訓練所得特徵可用於其他圖像識別基準，大幅提升樣本效率，尤其在有限標註資料的情況下，iGPT 預訓練模型提供了優異的初始化狀態，加速下游訓練。

對 AI 領域的深遠影響

iGPT 論文為視覺領域的預訓練策略開闢了革新道路，它成功將 Transformer 架構從語言處理拓展到純像素生成模型，展示了大規模無監督生成預訓練在影像理解中的潛力。

首先，iGPT 展示了一元像素級生成式模型可作為通用視覺表徵學習的基礎，類比 NLP 中的語言模型。這一觀念激發了後來更多關於 Transformers 在視覺領域中的應用研究，例如 Vision Transformer（ViT）和其他自注意力架構的興起，塑造了現代視覺模型的新趨勢。

其次，它讓研究者重新思考圖像生成與圖像辨識的關係，強調生成模型所學的分佈式深層特徵可有效輔助判別任務，推動了生成式模型在各種視覺語言任務上的廣泛應用。

第三，iGPT 強化了跨模態架構設計的可能性：基於 Transformer 的萬用架構不僅在文本，也在圖像等不同數據型態上具備強大表徵學習能力，成為多模態 AI 發展的基石。

最後，iGPT 的成功促進了無監督學習的重要性，在標註資料昂貴的現實條件下，通過無標註數據來提升模型理解力，有助於 AI 技術更廣泛且經濟地推廣應用。

結語

綜合而言，ICML 2020 的「Generative Pretraining From Pixels」不僅是一次單純技術實驗，更奠定了「自回歸生成式預訓練」在視覺領域的理論與實踐基礎。透過將自然語言領域成功的方法轉移至圖像生成，iGPT 帶來了新的視野與挑戰，也開啟了自注意力機制在電腦視覺上的黃金時代。對所有希望在影像理解及生成上取得突破的工程師與研究人員來說，深入理解 iGPT 的理念與實作細節，將是推動下一階段 AI 發展的重要參考。

論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper