2026年5月23日 星期六

Generative Pretraining From Pixels (iGPT)

在影像處理與理解領域中,深度學習模型的發展已經帶來革命性的進步,尤其是卷積神經網路(Convolutional Neural Networks, CNN)長期以來是圖像分類、分割等任務的主流架構。然而,在自然語言處理(NLP)領域中,基於 Transformer 架構的大規模預訓練模型,如 GPT(Generative Pre-trained Transformer)系列,已證明了利用無監督預訓練能夠顯著提升下游任務的表現,並形成了一種強大的通用語言表示學習範式。針對圖像模態,如何將類似於 NLP 領域的生成式預訓練(Generative Pretraining)策略成功地移植並提升,是 2020 年 ICML 中「Generative Pretraining From Pixels (iGPT)」論文所要解決的重要問題。

研究背景與動機

在此前的影像預訓練方法中,多數仍依賴於特定的監督信號,諸如 ImageNet 大量標記數據的分類任務,導致模型的泛化能力在缺少標記數據的情況下受限。這也使得圖像領域難以複製 NLP 領域中那種「先廣泛預訓練、再根據少量標註微調」的成功策略。此外,在圖像生成和理解的任務中,傳統 CNN 模型難以直接應用序列式的生成預訓練方法。本論文作者因此提出,是否可以完全基於像素級的生成任務,即讓模型自動學會預測像素的序列,從而訓練出一個強大的圖像預訓練模型?這正是 iGPT 的核心出發點。

核心方法與技術創新

iGPT 的關鍵技術在於將 Transformer 架構從文字序列延伸到像素序列,徹底擺脫傳統 CNN 的架構限制。具體來說,iGPT 將一張圖像視作一個長度為像素數的序列(每個像素表示為 RGB 三通道的組合),並按序列化的方式送入純 Transformer 模型中進行自回歸(autoregressive)生成學習。這意味著模型需要根據該像素前面序列的像素狀態,預測下一個像素的值,這是一種無監督的生成預訓練策略。

Transformer 在此的運用突破了影像處理中「局部感受野」的限制,允許模型捕捉全局的像素關聯性,尤其是在長距離依賴的建模方面優於 CNN。此外,iGPT 採用多層深度 Transformer 編碼器,並針對影像進行連續位置編碼,使模型可有效處理圖像數據的空間結構。同時,因像素值屬於離散分類(256 級灰度或 RGB),預測目標被定義為多分類問題,使生成任務轉化為標準的分類交叉熵損失的優化。

在訓練策略上,iGPT 直接利用大規模無標註的圖像數據集執行預訓練,並在完成後對多種下游視覺任務(如圖像分類、特徵抽取)進行微調或特徵利用。此流程與 NLP 領域 GPT 模型類似,但因圖像數據結構與文字差異極大,這是一項跨越式創新。

主要實驗結果

實驗部分,論文團隊在 CIFAR-10、ImageNet 等經典圖像分類任務中展現了 iGPT 的預訓練優勢。iGPT 在無監督預訓練完成後,通過簡單的線性分類器利用預訓練模型提取的影像特徵,即可達到接近監督訓練 CNN 的分類性能。特別是在 CIFAR-10 與 ImageNet 的評測中,iGPT 在零樣本和少樣本設定下均展現出強勁的泛化能力,證明生成式預訓練確實能學會具備重要語義與結構信息的圖像表示。

此外,模型在生成效果上也顯示穩定的圖像像素預測能力,儘管這種像素級的生成難以匹敵 GAN 或 PixelCNN 等專門設計的生成模型,但 iGPT 更著重的是利用生成預訓練學得的表徵來促進下游任務,效果令人印象深刻。

透過消融實驗,研究指出 Transformer 結構的層數深度與模型容量對於表徵質量具有顯著影響,模型越大、層數越多,其下游任務的表現越優異。此趨勢符合 NLP 領域 Transformer 模型的發展軌跡,為圖像生成預訓練提供理論與實驗支持。

對 AI 領域的深遠影響

iGPT 的提出,成功打造了從像素開始的生成式預訓練框架,為圖像預訓練與特徵學習開闢了全新路徑。它證明了純 Transformer 架構不僅適用於文本,亦能在視覺任務中取得突破,促進了多模態 AI 模型的發展趨勢。

在學術界,iGPT 的理念引領後續研究深入探討如何透過大規模無監督生成式學習獲得更具泛化性的影像表示,為跨領域任務例如圖文融合、多模態理解打下基礎。業界則因其優越的預訓練策略,推動了更有效率、少依賴標註資料的影像 AI 研發,減少了高昂標註成本。

更重要的是,iGPT 彌合了 NLP 與 CV(Computer Vision)兩大領域在模型架構與學習范式上的差距,為未來開發統一通用模型(foundation models)提供範本。而這種以序列生成為核心的通用型預訓練模型,已成為當代 AI 發展的主軸之一,催生了例如 Vision Transformer(ViT)以及 CLIP 等具備強大表示學習能力的影像模型。

總結而言,iGPT 不僅是技術上的突破,更是一個思維上的革命,擴展了Transformer於視覺領域的應用,促使產學界在構建更智能與通用的視覺理解系統上邁出關鍵一步。它證明了像素作為生成預訓練基礎的可行性與巨大潛力,對 AI 視覺領域未來的佈局與創新有著不可忽視的啟發意義。


論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper

沒有留言:

張貼留言