行有餘力則以學文: Generative Pretraining From Pixels (iGPT) 深度介紹

2026年4月22日星期三

Generative Pretraining From Pixels (iGPT) 深度介紹

近年來，自然語言處理（NLP）領域中以轉換器（Transformer）架構為基礎的生成預訓練（Generative Pretraining）方法大放異彩，如GPT系列成功展現了通用語言模型的威力。然而，在圖像領域中，生成預訓練的研究相對較少，且多數聚焦於特定結構或監督學習。ICML 2020 年由 Chen 等人發表的「Generative Pretraining From Pixels (iGPT)」論文，以純像素序列作為輸入，嘗試將純文字模型的預訓練思路完整移植到圖像生成與理解任務上，為圖像預訓練領域帶來革命性突破。該論文獲得了當年Outstanding Paper獎項，足見其在學術界與實務上的重要影響。以下將從背景、方法、實驗成果以及未來衍生影響四個面向詳細解析此篇經典論文。

研究背景與動機

生成模型在圖像處理領域已屢創佳績，諸如GAN（生成對抗網絡）及VAE（變分自編碼器）等架構可以生成高品質影像，然而這些模型多半依賴結構化架構或部分監督信號，且缺乏通用性。另一方面，NLP領域在語言模型預訓練成功後，展開了通用語言理解和生成的新局面，其核心在於大量無監督文本數據自回歸地學習序列分布。若將類似策略成功應用於像素序列，則可望達成一套強大的通用圖像生成與理解模型，從而推進多模態AI能力。

然而，圖像與語言在數據表示與結構上存在重要差異。圖像本質上是二維連續像素矩陣，而非一維離散文字序列，如何將圖像「展平成」像素序列並讓Transformer模型有效處理，是一大挑戰。此外，圖像維度通常極高，序列長度遠超文本，帶來巨大的計算負擔和訓練瓶頸。iGPT正是基於這些困難，試圖以「無額外卷積結構」的純Transformer架構，從像素序列中自回歸學習分布，探索純粹序列模型在視覺領域的可行性與潛力。

核心方法與創新

iGPT的核心方法為將彩色圖像視為像素值的長序列，將3個RGB通道的像素依照掃描線順序展平成離散的整數序列，並利用Transformer架構進行自回歸式生成預訓練。具體來說，以參考GPT模型的架構，iGPT對每一像素依序預測下一像素的三通道值，形成單純的序列分佈學習任務。其訓練目標是最大化下個像素的條件機率，實現端對端的unsupervised generative pretraining。

iGPT的幾大創新包括：

純Transformer結構的圖像序列建模：放棄卷積神經網絡 (CNN) 的空間偏差假設，完全依賴自注意力機制學習像素間的長距離相依性，嘗試以通用序列模型解決圖像理解問題。
圖像像素離散化處理：利用量化器（quantizer）將連續像素值（通常介於0~255）離散化，方便Transformer用離散機率分布建模，有效模仿語言模型裡的離散詞彙機制。
大規模自回歸預訓練：資料集以ImageNet為主，模型規模從小型到大型（參數量級達數億），充分展現了隨著模型與資料擴大，生成與理解能力顯著提升。
零預設專門架構： 不添加特定於視覺的架構設計，如捲積層、池化或局部感受野，是真正意義上從文字生成模型移植至像素序列的跨域嘗試。

主要實驗結果

iGPT在圖像生成與下游表徵學習兩方面皆展現亮眼成績，具體包括：

生成影像質量

在ImageNet圖像集上，iGPT透過自回歸生成模型，成功生成真實感較高的128×128像素圖像。雖然在視覺細節上仍不及當時先進的GAN模型如BigGAN，但作為首個純Transformer結構的像素自回歸模型，iGPT充分展現了其強大表徵學習能力，且未使用判別對抗訓練。

下游任務表徵學習

將iGPT作為無監督預訓練模型，並在下游圖像分類或物件識別任務中，利用線性探針（linear probe）或微調方式評估特徵效用。結果顯示，預訓練後模型提取的特徵優於從頭訓練結構相同的Transformer，甚至與部分傳統CNN方法相當。這點顯示自回歸生成任務能夠抽取有意義的視覺特徵，有助於降低對大量標註數據的依賴。

模型規模與性能對應

研究還分析了模型大小與效能之間的關係，結果指出大規模Transformer和大量訓練數據對生成與理解性能呈現正比提升趨勢，這與NLP中語言模型的經驗一致，預見未來視覺生成模型需持續擴大規模以達更優效果。

對 AI 領域的深遠影響

iGPT的貢獻在於揭開了「純生成自回歸預訓練」在視覺領域的可能性，並推翻了以往認為圖像必須依賴卷積或專門結構的印象，首次證明Transformer自注意力架構可以有效捕捉像素間複雜的空間關係。

1. 多模態統一模型的基礎：iGPT架構促進AI模型在語言與視覺間架構統一，為後續如DALL·E之類跨模態生成模型鋪路，有助於推動多模態理解與創作的融合發展。

2. 自監督學習新典範：不依賴標註資料的生成預訓練策略大大降低人工標注成本，推動無監督與自監督學習在視覺領域的興起，改變過往視覺學習高度依賴標註數據的現狀。

3. Transformer在視覺的普適性確認：iGPT證明Transformer不只適用於序列資料，也能成為處理大規模視覺資訊的強大工具，促使後續如Vision Transformer (ViT)、Swin Transformer等架構誕生和廣泛應用。

4. 促進更靈活的生成模型設計：透過純像素序列自回歸建模，研究社群開始探索更靈活、結構化的生成模型設計思維，如基於序列生成的圖像編碼器、更先進的離散表示方法等，推動整個深度生成模型技術的進步。

總結

總結而言，Chen 等人在 ICML 2020 發表的 iGPT 論文，透過純Transformer架構，自回歸方式生成預訓練圖像像素序列，開創了圖像生成與理解的一條全新路徑。其拋棄了傳統CNN視覺偏置，以原生的語言生成思想成功應用於像素層面，實驗結果證明了生成預訓練對於無監督視覺特徵學習的巨大潛力。此研究不僅在模型設計上具有里程碑意義，也為後續多模態AI與大型無監督視覺模型的發展奠定了理論與實踐基礎，影響深遠且持續延燒，至今仍被視為跨域生成模型研究的重要參考。

論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper

行有餘力則以學文

2026年4月22日星期三

Generative Pretraining From Pixels (iGPT) 深度介紹

研究背景與動機

核心方法與創新