行有餘力則以學文: Generative Pretraining From Pixels (iGPT)

2026年4月4日星期六

Generative Pretraining From Pixels (iGPT)

在深度學習快速發展的過程中，預訓練模型（Pretraining Models）已成為推動自然語言處理（NLP）與計算機視覺（CV）進步的關鍵技術。尤其是在NLP領域，透過大量無標籤文本進行生成式預訓練（如GPT系列），顯著提升下游任務表現。ICML 2020年頒發Outstanding Paper的《Generative Pretraining From Pixels》（簡稱iGPT）一文，則是將這一理念首次系統性地搬到圖像領域，開創了一種基於Transformers架構，從像素層級學習通用圖像表示的生成式預訓練方法。

研究背景與動機

圖像識別領域過去長期以卷積神經網路（CNN）為主流，這類網路能有效捕捉局部特徵並在圖像分類、物體檢測中取得卓越成績。然而，CNN結構在跨任務遷移學習上，尤其在無監督或生成式表徵學習方面仍有限制。另外，NLP成功採用的大型Transformer模型於圖像領域的應用仍待突破。由OpenAI提出的iGPT旨在探索是否能利用類似於GPT的自回歸生成式預訓練框架，直接在「像素序列」上完成通用圖像表徵的學習，進而挑戰CNN主導的圖像理解技術。

主要動機在於：第一，取代硬性設計的卷積核，以Transformer建立跨像素的長距離依賴關係；第二，採用無監督的生成目標（像素補全），在不依賴標註資料的前提下學習豐富的圖像內在結構；第三，評估此生成式預訓練是否能在下游分類任務上達到甚至超越傳統監督式CNN的性能。

核心方法與創新

iGPT的核心在於將彩色圖像展開為一維「像素序列」，並利用Transformer架構以自回歸方式逐步預測下一個像素的色彩值。具體流程包括：

像素序列化：將每一張圖像拆解成固定大小的像素格，每個位置的RGB三色會被視為整數序列進行編碼，形成一長串一維序列。
Transformer自回歸建模：基於GPT式的Transformer架構，逐步預測像素序列中下一個值的機率分布。這意味著模型要捕捉像素間的空間依賴關係與圖像結構，是一種生成式建模。
多層深度與注意力機制：iGPT採用多層堆疊的Transformer block，透過多頭自注意力機制來聚焦不同位置的像素上下文，加強對影像整體結構的捕捉能力。
大規模無監督預訓練：模型在ImageNet資料集的無標籤圖像上進行訓練，以最大化整個像素序列的對數似然目標，純粹靠自監督學習獲得通用圖像表示。
下游任務微調與評估：完成預訓練後，透過在特定任務（例如圖像分類）的微調，檢驗預訓練表示是否能有效提升性能。

本方法的創新之處在於：

首度證明Transformer能直接在像素層級建模圖像，避免CNN需要的空間卷積設計。
通過生成式目標學習圖像表示，實現完全無監督的視覺預訓練並大幅縮減對人工標註的依賴。
展示高度靈活的Pixel-based序列表示，使得Transformer模型跨越文本與圖像兩大模態，具備統一的序列建模能力。
提出將NLP成功經驗移植至視覺領域的實作範例，為後續多模態與跨領域預訓練鋪路。

主要實驗結果

在實驗部分，作者訓練多個架構不同規模的iGPT模型，從小型到大型，並比較其在ImageNet分類任務上的表現。以下是主要成果：

生成性能：在像素生成任務上，iGPT在ImageNet測試集上達到了良好的解碼性能，圖像生成結果合理，說明模型有效捕捉影像結構和紋理。
分類任務：將預訓練好的模型後接分類頭微調，iGPT模型的分類準確率與傳統CNN模型（如ResNet）相近甚至略有競爭力，證明生成的骨幹模型能有效轉為判別任務。
無監督學習優勢：iGPT無需圖像標註資料即可學習特徵，展現出優異的數據利用效率，為未來資源匱乏場景下的視覺模型提供可能。
模型規模影響：實驗顯示，模型規模越大，預訓練與微調後的表現越好，反映了Transformer模型的擴展性與容量效應。

這些結果突破了以往基於卷積的無監督視覺表徵學習方法的瓶頸，開創了圖像生成式預訓練的新紀元。

對 AI 領域的深遠影響

iGPT這篇論文的提出，對整個深度學習與人工智慧社群產生了幾大層面的深遠影響：

視覺Transformer興起：iGPT說明了Transformer架構不僅是自然語言模型的利器，也能成為圖像理解與生成的重要基石。此後，多種視覺Transformer架構（如ViT、Swin Transformer）相繼問世，拓展了視覺AI的建模範式。
統一模態序列建模：從原始像素出發的序列生成預訓練使得跨模態（文字、圖像、甚至影像與語音）整合成為可能，推動多模態融合模型的發展，促使AI朝向通用人工智慧前進。
生成模型的廣泛應用：生成式預訓練反映了模型對資料分布的深刻理解，能更自然地進行資料增強、缺失補全、跨域遷移等任務，賦予模型強大的可塑性與應用彈性。
無監督表徵學習的實踐示範：在標註昂貴或難以取得的影像資料領域，iGPT證明無監督生成預訓練是一條可行的路徑，有助於提升少量標註樣本上的模型表現。
激勵後續研究探索更好的序列化策略與效率優化：雖然Pixel序列較長且計算成本高昂，iGPT催生了許多針對高效視覺Transformer的後續方法與架構設計。

綜觀而言，《Generative Pretraining From Pixels》突破了視覺AI對於卷積的依賴，並開啟生成式無監督預訓練在圖像領域的嶄新篇章。這不僅擴大了Transformer模型的應用範圍，也推動了跨模態統一建模的理論與實務進展。iGPT的成功示範，成為之後包括CLIP、DALL·E等多模態生成模型的重要理論基石，並深刻影響了生成式AI與視覺技術的未來發展路徑。

論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper