在自然語言處理(NLP)領域中,預訓練大型生成式模型(如 GPT、BERT)已被證明能顯著提升下游任務的性能。相較而言,計算機視覺(CV)領域過去的主流做法多以監督式學習為主,使用卷積神經網絡(CNN)在標註豐富的資料集上訓練。然而,這種方式在資料匱乏或標註成本高昂的情況下效果有限。ICML 2020 的獲獎論文《Generative Pretraining From Pixels (iGPT)》由 Chen 等人提出,開創性地將自然語言生成的預訓練思想移植到純像素層級的影像生成任務,展示一條新的視覺領域自監督學習典範。
研究背景與動機
過去幾年,生成式預訓練(Generative Pretraining)已在 NLP 領域掀起革命,主要以自回歸語言模型(如 GPT 系列)大幅提高語言理解及生成任務的性能。這種方法基於大量無標註文本資料,利用模型預測下個字元或詞彙,學得深層語意表示,減少對標記資料的依賴。
然而,在計算機視覺領域,類似的預訓練策略並未普及。主因在於影像資料不像文字自然具備序列結構,且像素的語義層次抽象較低。傳統的自監督方法(如圖像重建、對比學習)雖有所發展,但未達可簡單套用 NLP 預訓練架構的效果。論文團隊由此提出一個重要問題:能否直接從原始像素的「序列」出發,訓練一個自回歸生成模型,進而獲得強大的視覺表示?這正是 iGPT 的核心探索目標。
核心方法與創新
iGPT 的關鍵創新在於將 Transformer 架構完整套用於「像素序列」的生成任務。具體來說,研究團隊將一張影像展平成一個一維的像素序列(以 RGB 色彩空間中的像素作為基本元素),並訓練一個大型自回歸 Transformer 模型,令其學習在已見像素的條件下,預測下一個像素的分布。這種做法類似於 NLP 中預測下一個單詞或字元。
此方法擁有以下特色:
- 純生成模型:使用 Transformer 來生成像素,無須設計特定的卷積結構,且可擴展到超過 1 億參數的巨型模型。
- 自監督學習:利用大量無標註的影像資料(如 ImageNet ),不需要標註資訊,模型自行從生成任務中抽取知識。
- 像素順序化:採用固定像素掃描順序(如從左上往右下的行主序列),將二維影像轉換成一維序列,使得 Transformer 僅需處理序列資料。
- 多任務遷移:模型訓練完成後,可將權重凍結,再透過簡單的線性分類器,驗證模型提取的視覺表徵在下游任務(如圖像分類)的效能。
這套架構突破了 CNN 依賴局部感受野及卷積層的傳統限制,展現純 Transformer 架構在視覺建模的可行性與潛力。
主要實驗結果
論文在 ImageNet 資料集上進行嚴謹的評估:
- 生成任務:iGPT 可有效學習像素層級分布,生成的影像雖然仍存在模糊與失真,但在定量指標與質量上均超越以往基於注意力機制的生成模型。
- 表示學習能力:使用預訓練權重作為特徵抽取器,iGPT 在 ImageNet 1k 分類任務中,以線性探測(linear probing)方式取得極具競爭力的準確率。這意味著單靠生成任務即可獲得良好的視覺表徵,顯示出其自監督學習的力量。
- 模型規模與效能:iGPT 隨著模型參數規模增加(如從 76M、155M 到 1.4B 參數),線性分類準確率穩健提升,呼應 NLP 預訓練模型擴大帶來性能附加值的趨勢。
- 遷移學習:與當時傳統的卷積基礎模型相比,iGPT 在不同下游任務也顯示良好的泛化能力,有助於促進視覺領域多任務或少標嚴謹場景。
對 AI 領域的深遠影響
iGPT 的工作不僅是技術上的突破,更在 AI 理論與實務面引發深遠的影響:
- Transformer 在視覺領域的普適性驗證:iGPT 打破了「CNN 是視覺唯一之道」的刻板印象,證明 Transformer 架構能直接建模像素,為後續如 Vision Transformer (ViT)、Swin Transformer 等視覺 Transformer 的興起奠定理論基石。
- 橋接 NLP 與 CV 方法論:iGPT 將 NLP 預訓練的成功理念延伸至影像領域,促使研究者將自然語言自監督預訓練中經典的自回歸框架重新思考並用於跨模態學習,推動多模態與跨領域模型的誕生。
- 大規模自監督學習新典範:在缺乏標註的條件下,iGPT 展示了通過生成任務學到泛化強的視覺表示的潛力,使得未來的研究逐漸趨向更大規模、低成本的無監督或自監督訓練架構,降低 AI 部門對稀缺標記資料的依賴。
- 加速視覺生成模型發展:透過像素序列生成的探索,iGPT 啟發後來多種先進生成模型架構(如 DALL·E、Imagen 等)以 Transformer 為基礎,跨越圖像生成、編輯與視覺理解。
總結來說,《Generative Pretraining From Pixels (iGPT)》以其獨特的思路和嚴謹的實證,開啟了利用 Transformer 進行像素級生成和表示學習的新紀元。該方法將生成式自監督學習的理念從文字成功帶入視覺領域,推動 AI 在模型結構、訓練方法與跨領域整合上的創新。對於具備基礎 AI 知識的工程師和研究者而言,iGPT 不僅是視覺領域 Transformer 研究的里程碑,更是一個值得深入學習並延伸應用的成功範例。
論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper

沒有留言:
張貼留言