在近年來自然語言處理(NLP)領域中,透過「預訓練加微調(pretraining-finetuning)」的方式來建構強大的語言模型,已經迅速成為 AI 研究與應用的主流。不過,影像領域的預訓練策略卻與文本存在本質上的差異,多半依賴監督式學習和大型標註資料。2020 年 ICML 獲獎論文《Generative Pretraining From Pixels (iGPT)》由 Chen 等人發表,突破性地提出將 GPT 架構從文本延伸到影像,實現純粹以像素作為輸入進行自回歸生成預訓練,為計算機視覺的自監督學習開啟新視野。
研究背景與動機
隨著 Transformer 架構在 NLP 的成功,OpenAI 的 GPT 系列模型強調以大量非結構化文字資料進行自回歸預訓練,學習語言的高階語意與語境關係,並透過微調快速應用於多元任務中。在視覺領域,目前主流仍以卷積神經網路(CNN)為基礎,透過監督式學習藉由標註影像資料達成目標辨識、語義分割等任務。
然而,影像的結構與語言的離散文本不同,影像本質上是高度連續和多維的像素值,且缺乏等同文本的「詞彙表」結構。過去純粹以像素進行生成預訓練的嘗試鮮少,且大多使用純生成模型(如 GAN 或 VAE)聚焦影像重建或生成,缺少直接能夠利用大量無標註影像資料來學習通用影像表示的機制。
因此,Chen 等人提出 iGPT,核心動機在於探索是否能直接用純 Transformer 架構,在不依賴任何標註資訊及預先定義的語義結構下,僅以像素序列的自回歸生成任務,學習影像的內在結構與特徵表示,並進一步用於下游視覺任務。
核心方法與創新
iGPT 的關鍵創新在於將連續像素數據進行離散化處理,轉化為類似文字 token 的形式,使得 Transformer 的標準自回歸架構可以直接被套用在影像上。核心步驟包括:
- 像素離散化(Pixel Quantization):將 32×32 彩色影像展平成序列,利用 k-means 聚類方法將 RGB 像素點映射到有限數量的離散類別(例如 512 個詞彙),形成一連串「像素 token」。
- 自回歸 Transformer:架構採用了 GPT 原理,將展平後的 pixel token 作為輸入,依序預測下一像素 token 的分佈。Transformer 強大的自注意力機制允許模型捕捉影像中局部和遠距離的空間依賴性。
- 無監督預訓練:模型以純像素序列生成任務進行訓練,無需任何標註或人工標籤,充分利用海量未標記影像資料挖掘數據內在結構。
- 下游任務微調與特徵提取:在完成生成預訓練後,利用模型中間層產生的特徵表徵,在 CIFAR-10、ImageNet 等經典視覺分類任務上進行微調或直接提取特徵搭配線性分類器,評估其影像表徵的質量。
透過這套方法,iGPT 不僅在結構上簡化了視覺預訓練的流程(避免複雜的卷積設計與人工標籤需求),更在理論層面證明 Transformer 架構具備通用的訊號建模能力,不論是離散文本或連續影像資料,都能透過適當的離散化和自回歸策略進行有效學習。
主要實驗結果
論文中 iGPT 在多個公開資料集與任務中展示了卓越表現:
- 生成質量:在 32×32 的 CIFAR-10 影像上,iGPT 能夠生成具備連續性與局部結構合理的圖像,從像素層面捕捉影像之間的空間依賴,顯示模型成功學習到基本的視覺統計特性與結構。
- 下游分類任務:在標準 ImageNet 分類任務上,透過微調與線性分類實驗,iGPT 提取的深層特徵在沒有監督的情況下也達到相當競爭力的準確率,特別是較大型號的 iGPT 模型,能在不少任務上接近或超過傳統監督式 CNN 的表現。
- 特徵通用性:特徵重用與遷移學習效果良好,突顯自回歸生成模型在影像理解與表徵學習上的潛力。
實驗結果驗證了 iGPT 將 Transformer 與自回歸生成模型成功移植到視覺領域的可行性,並且在無監督環境下開發出具備強泛化能力的視覺特徵。
對 AI 領域的深遠影響
iGPT 重要的突破點除了架構的延伸之外,還有對未來視覺模型訓練與自監督學習的啟發:
- 統一模型架構的可能性:iGPT 展示了將相同的 Transformer 架構用於不同數據模態(文本、影像)的可行性,為多模態模型統一架構架構提供技術基礎。
- 推翻CNN在視覺中的主導地位:長期以來 CNN 是視覺任務的核心架構,iGPT 證明純 Transformer 模型即使不依賴卷積結構,也能捕捉影像結構並產生實用表示,促使研究開始重新思考視覺模型的基本構建力量。
- 自監督學習的新典範: iGPT 採用純生成的自回歸目標,無需任何人工標籤,充分利用無限量的影像資料,為視覺自監督學習建立有效且簡潔的策略,後續也催生更多基於生成預訓練的視覺模型開發。
- 促進多模態與生成模型融合:iGPT 的生成預訓練設定提供可能,將影像生成與表示學習結合,有助於未來影片、3D模型或跨模態任務的統一學習框架打造。
總結而言,《Generative Pretraining From Pixels (iGPT)》不僅在方法論上提出新穎且有效的視覺自回歸生成預訓練框架,更在跨領域架構的應用上開拓 AI 研究新方向。對於希望在多模態、無監督以及生成模型領域有所突破的研究者與工程師,都具有重要的參考與啟示價值。
論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper

沒有留言:
張貼留言