2026年4月28日 星期二

Generative Pretraining From Pixels (iGPT) 深度簡介

在深度學習蓬勃發展的過程中,預訓練(pretraining)技術扮演了關鍵角色,特別是在自然語言處理(NLP)領域中,以BERT、GPT為代表的生成式或自回歸模型透過大規模語料的無監督學習,成功提升下游任務的效果。相較之下,視覺領域的預訓練多半依賴監督式學習(如ImageNet分類任務),且在無監督預訓練上的跨越一直不如語言領域顯著。來自OpenAI的Chen等人在ICML 2020發表的論文《Generative Pretraining From Pixels (iGPT)》提出了一種策略,透過純像素級生成任務,成功將生成式預訓練理念帶入視覺領域,彌補了此前視覺預訓練的不足,這篇論文因其創新與影響力獲頒「傑出論文獎」(Outstanding Paper)。本文將深入解析iGPT的研究背景、核心方法、實驗成果與其對AI界的深遠影響。

研究背景與動機

隨著語言模型(Language Models, LM)如GPT系列的成功,學界逐步認識到大規模無監督預訓練在模組泛化能力上的巨大潛力。GPT模型透過自回歸方式學習詞彙序列的條件機率分布,實現卓越的語言理解與生成表現。此思路是否能直接套用於圖像領域,啟發了iGPT的誕生。

傳統的視覺模型預訓練,通常是透過監督式標籤數據進行特徵學習,強烈依賴標記成本高昂的資料集。而如何能減少對標記數據的依賴,以無監督或自監督方式預訓練視覺模型,一直是計算機視覺的研究難題。iGPT提出,若將圖像視為一維像素序列,並以自回歸的方式預測下一像素,即可類比語言模型來進行圖像的生成式預訓練,建立起像素層級的豐富語義和結構表徵,進而提升下游視覺任務的效果。

核心方法與技術創新

iGPT的關鍵創新在於將圖像視作序列問題,將一副圖像的RGB三通道像素展開為一維長序列,讓Transformer模型處理這種像素序列,並以自回歸的方式預測下個像素的數值分布。

  • 序列化像素:iGPT將例如32×32或更高解析度的圖像,以行優先的順序展平成長度為32×32×3(RGB通道)的像素序列,每個像素以離散值表示(0~255),因此序列元素是「詞彙」,模型訓練的目標是預測序列中下一個像素值。
  • 純Transformer架構:不同於過去視覺模型使用卷積神經網路(CNN),iGPT完全基於自注意力機制的Transformer架構,不採用任何卷積結構。這是視覺區域創新點,意在模仿語言模型的架構與訓練方式。
  • 預訓練目標:以最大似然估計方式,讓模型學習根據已看到的前面像素序列來預測下一像素的機率分布。這是一種純生成式的預訓練方法,不依賴標籤資訊,強化模型自主擷取圖像結構與語義的能力。
  • 下游任務微調:完成無監督預訓練後,通過一個小型的多層感知器(MLP)接在Transformer輸出層,利用少量標註數據在圖像分類等任務上微調,提高模型表現。此流程與NLP領域先預訓練、再下游微調類似。

此外,iGPT在訓練中採用大模型與大規模資料(如ImageNet),以確保Transformer能捕捉到足夠豐富且有效的圖像表示;設計上也考慮效能與梯度傳播穩定性,以適應長像素序列的訓練挑戰。

主要實驗結果

論文在ImageNet等經典視覺資料集上驗證iGPT的學習效能。主要發現包括:

  • 生成質量:雖然完整生成高解析影像尚未達到SOTA視覺生成模型水準,但模型可成功生成結構合理、包含清晰物體輪廓的像素圖,展示其生成能力屬於視覺生成新方向的可行路徑。
  • 特徵轉移效果優秀:在圖像分類任務中,微調iGPT預訓練模型後,結果超越了同期多數無監督或自監督學習視覺表徵的方法,甚至逼近部分監督預訓練模型。此結果揭示生成式預訓練對視覺任務有顯著增益。
  • 規模效應明顯:隨著Transformer層數與模型參數的增加,模型性能有明顯提升,顯示生成式預訓練高度依賴大模型和大資料,與語言模型的經驗相似。
  • 跨任務遷移能力:預訓練的特徵可應用於多種視覺任務,展示出較好的泛化能力,為視覺模型的通用表示學習奠定基礎。

對AI領域的深遠影響

iGPT的提出在視覺領域掀起了一場關於生成式無監督預訓練的全新思考潮流。過去視覺代表提取多仰賴卷積與標註信息,iGPT展示了Transformer可純粹依靠生成任務獲得優質視覺表徵,打破了CNN長期壟斷的局面,並且表明語言模型成功架構在視覺領域的可行性與優勢。

此外,iGPT啟發了後續許多自監督學習與無監督表示學習的研究,刺激學者探索包括Masked Image Modeling(類似BERT的遮蔽重建策略)、對比學習(Contrastive Learning)、以及自回歸生成等多種預訓練模式,促進跨模態預訓練的發展。

從商業與實務應用角度看,iGPT展現了大型視覺Transformer架構的威力與潛能,進一步推動了多模態模型(例如CLIP或DALL·E)的誕生,這類模型在自然語言與圖像生成任務上的成功,與iGPT當時提出的思想脈絡密不可分。

綜合而言,《Generative Pretraining From Pixels (iGPT)》論文不僅在技術上提出了一條從像素生成任務出發的視覺預訓練新路徑,更在理論與實踐兩端極大地影響了視覺AI的研究方向,鞏固了Transformer作為視覺新基石的地位。對想藉由生成式預訓練來解決視覺標註資料受限、提升表徵學習能力的研究者與工程師而言,iGPT是不可繞過的重要里程碑。


論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper

沒有留言:

張貼留言