行有餘力則以學文: Generative Pretraining From Pixels (iGPT) 深度解析

2026年3月26日星期四

Generative Pretraining From Pixels (iGPT) 深度解析

隨著深度學習在自然語言處理領域的飛躍發展，特別是以 GPT（Generative Pretrained Transformer）開創的預訓練加微調架構，促使研究者開始探討是否能將這種強大的語言模型架構擴展到其他領域，如圖像處理。ICML 2020 中 Chen 等人發表的「Generative Pretraining From Pixels (iGPT)」便是一篇成功嘗試以純自回歸 Transformer 架構，在像素層面進行通用圖像預訓練的開創性論文，並榮獲該會議的 Outstanding Paper 獎。本文將深入解析作者如何從語言建模經驗出發，挑戰影像領域中以卷積神經網絡（CNN）為主流的思維，提出全新純 Transformer 預訓練方法，以及此方法在下游視覺任務中帶來的突破和啟示。

研究背景與動機

在 NLP 領域，基於 Transformer 的大型生成式預訓練模型（如 GPT）已被證明具有強大的表示能力，能夠透過無監督學習階段提取出通用知識，進而於特定任務微調時展現強大表現。然而，在計算機視覺（CV）領域，主流的方法始終是以卷積神經網絡為骨幹結構，利用大量標註資料進行監督式訓練完成高效視覺特徵學習。儘管近年 Vision Transformer（ViT）等架構開始出現，挑戰了 CNN 的地位，但純粹以生成式自回歸 Transformer 從像素層面做預訓練的嘗試仍然極少見。

iGPT 的動機即是借鏡 NLP 預訓練的成功，嘗試以純 Transformer 自回歸模型，利用未標註圖像的原始像素值進行預訓練，進而學習到通用、高效的視覺特徵表示。作者期望此架構能減少對標註資料的過度依賴，並將生成式預訓練的思路落實於視覺任務，從而跨領域推動泛用的深度表示學習技術發展。

核心方法與創新

iGPT 核心上採用 Transformer 的自回歸生成架構，但與 NLP 中以詞彙為單位不同，iGPT 將彩色圖像（CIFAR-10、ImageNet 等）視為一維序列，由像素序列（每像素有 RGB 三通道）組成，逐像素生成下一像素顏色。整個模型架構遵循 GPT 類似的堆疊 Transformer 編碼器層，但輸入是連續像素值的離散化版本（將每個通道像素量化為 0~255 的整數，視為詞彙索引），即算法上近似於一個語言模型在像素序列上的應用。

這裡主要創新亮點包括：

像素級別自回歸建模：不採用 CNN 的局部感受野與權重共享，而是直接對整張圖像像素序列進行自回歸概率建模。Transformer 透過多層自注意力捕捉長距離像素依賴關係，學習圖像整體結構與語意。
量化像素表示：由於多通道輸入，作者設計將RGB三通道像素扁平化成一維序列，並將每個像素通道視為一個「詞彙」，使得數據格式符合 Transformer 的輸入需求，簡化模型訓練。
大規模無監督預訓練：在大規模圖像資料集上訓練，允許模型自動學習像素間的複雜分布，捕捉圖像內部的潛在表示，後續利用所學表示進行下游任務微調，驗證其泛化能力。

主要實驗結果

作者在 CIFAR-10 與 ImageNet-32（將 ImageNet 圖片降至 32x32）兩個資料集上進行評估，並與多種基準模型比較。重要觀察包括：

當直接以生成模型做像素級預訓練後，取 Transformer 中間層的向量作為圖像表示，並用簡單的線性分類器在 CIFAR-10 & ImageNet 32x32 上進行分類，發現這些表示顯著優於訓練相同大小 CNN 的無監督特徵。
將 iGPT 預訓練後的模型微調，能達到與當時先進 CNN 架構可比的有監督質量，凸顯預訓練模型能提供良好初始化，有助於視覺表徵學習。
分析生成結果顯示模型能夠捕捉較細緻的紋理與結構，證明自回歸 Transformer 在像素層面具備有效的創造力與依賴建模能力。

然而，iGPT 也展示出計算資源需求龐大、預訓練時間長、生成高解析度圖像困難等限制，是目前直接用純 Transformer 取代 CNN 在 CV 領域的挑戰所在。

對 AI 領域的深遠影響

iGPT 是基於語言模型架構的一個重要視覺領域驗證，體現了跨領域模型設計理念的成功轉換，為後續 Vision Transformer 等模型鋪路。其深遠意義可歸納如下：

突破傳統視覺架構束縛：iGPT 挑戰長期以來視覺任務必須採用 CNN 的傳統觀念，證明純 Transformer 甚至非卷積框架也能學會有效視覺表示。
強化無監督學習在視覺的可行性：iGPT 探索了使用無標註像素序列預訓練來學習泛用特徵的可能性，降低了對昂貴標註資料的依賴，推動視覺領域自監督與生成模型研究。
促進跨模態預訓練技術融合：該工作展示了 Transformer 在處理不同模態資料（語言、圖像）間的一致性與延展性，激發後續多模態學習架構的研究熱潮。
模型解釋與生成潛力的展現：由於是基於生成模型訓練，iGPT 不僅能提取特徵，還能生成圖像，促使研究者檢視生成模型在視覺認知方面的潛力與挑戰。

總結而言，iGPT 是計算機視覺領域中利用純 Transformer 做生成式預訓練的重要開拓者，儘管目前在計算成本與生成品質上仍有不足，但其展示的架構巧妙與實驗成效明確影響了視覺 Transformer、無監督學習與跨模態預訓練的發展方向。對於研究生及工程師而言，理解 iGPT 的設計思路與實驗成果，有助於掌握下一代圖像理解與生成模型的核心趨勢，並激發將深度生成模型融入更多視覺及跨域任務的靈感。

論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper