近年來,自然語言處理(NLP)領域中以轉換器(Transformer)架構為基礎的生成預訓練(Generative Pretraining)方法大放異彩,如GPT系列成功展現了通用語言模型的威力。然而,在圖像領域中,生成預訓練的研究相對較少,且多數聚焦於特定結構或監督學習。ICML 2020 年由 Chen 等人發表的「Generative Pretraining From Pixels (iGPT)」論文,以純像素序列作為輸入,嘗試將純文字模型的預訓練思路完整移植到圖像生成與理解任務上,為圖像預訓練領域帶來革命性突破。該論文獲得了當年Outstanding Paper獎項,足見其在學術界與實務上的重要影響。以下將從背景、方法、實驗成果以及未來衍生影響四個面向詳細解析此篇經典論文。
研究背景與動機
生成模型在圖像處理領域已屢創佳績,諸如GAN(生成對抗網絡)及VAE(變分自編碼器)等架構可以生成高品質影像,然而這些模型多半依賴結構化架構或部分監督信號,且缺乏通用性。另一方面,NLP領域在語言模型預訓練成功後,展開了通用語言理解和生成的新局面,其核心在於大量無監督文本數據自回歸地學習序列分布。若將類似策略成功應用於像素序列,則可望達成一套強大的通用圖像生成與理解模型,從而推進多模態AI能力。
然而,圖像與語言在數據表示與結構上存在重要差異。圖像本質上是二維連續像素矩陣,而非一維離散文字序列,如何將圖像「展平成」像素序列並讓Transformer模型有效處理,是一大挑戰。此外,圖像維度通常極高,序列長度遠超文本,帶來巨大的計算負擔和訓練瓶頸。iGPT正是基於這些困難,試圖以「無額外卷積結構」的純Transformer架構,從像素序列中自回歸學習分布,探索純粹序列模型在視覺領域的可行性與潛力。
核心方法與創新
iGPT的核心方法為將彩色圖像視為像素值的長序列,將3個RGB通道的像素依照掃描線順序展平成離散的整數序列,並利用Transformer架構進行自回歸式生成預訓練。具體來說,以參考GPT模型的架構,iGPT對每一像素依序預測下一像素的三通道值,形成單純的序列分佈學習任務。其訓練目標是最大化下個像素的條件機率,實現端對端的unsupervised generative pretraining。
iGPT的幾大創新包括:
- 純Transformer結構的圖像序列建模:放棄卷積神經網絡 (CNN) 的空間偏差假設,完全依賴自注意力機制學習像素間的長距離相依性,嘗試以通用序列模型解決圖像理解問題。
- 圖像像素離散化處理:利用量化器(quantizer)將連續像素值(通常介於0~255)離散化,方便Transformer用離散機率分布建模,有效模仿語言模型裡的離散詞彙機制。
- 大規模自回歸預訓練:資料集以ImageNet為主,模型規模從小型到大型(參數量級達數億),充分展現了隨著模型與資料擴大,生成與理解能力顯著提升。
- 零預設專門架構: 不添加特定於視覺的架構設計,如捲積層、池化或局部感受野,是真正意義上從文字生成模型移植至像素序列的跨域嘗試。
主要實驗結果
iGPT在圖像生成與下游表徵學習兩方面皆展現亮眼成績,具體包括:
生成影像質量
在ImageNet圖像集上,iGPT透過自回歸生成模型,成功生成真實感較高的128×128像素圖像。雖然在視覺細節上仍不及當時先進的GAN模型如BigGAN,但作為首個純Transformer結構的像素自回歸模型,iGPT充分展現了其強大表徵學習能力,且未使用判別對抗訓練。
下游任務表徵學習
將iGPT作為無監督預訓練模型,並在下游圖像分類或物件識別任務中,利用線性探針(linear probe)或微調方式評估特徵效用。結果顯示,預訓練後模型提取的特徵優於從頭訓練結構相同的Transformer,甚至與部分傳統CNN方法相當。這點顯示自回歸生成任務能夠抽取有意義的視覺特徵,有助於降低對大量標註數據的依賴。
模型規模與性能對應
研究還分析了模型大小與效能之間的關係,結果指出大規模Transformer和大量訓練數據對生成與理解性能呈現正比提升趨勢,這與NLP中語言模型的經驗一致,預見未來視覺生成模型需持續擴大規模以達更優效果。
對 AI 領域的深遠影響
iGPT的貢獻在於揭開了「純生成自回歸預訓練」在視覺領域的可能性,並推翻了以往認為圖像必須依賴卷積或專門結構的印象,首次證明Transformer自注意力架構可以有效捕捉像素間複雜的空間關係。
1. 多模態統一模型的基礎:iGPT架構促進AI模型在語言與視覺間架構統一,為後續如DALL·E之類跨模態生成模型鋪路,有助於推動多模態理解與創作的融合發展。
2. 自監督學習新典範:不依賴標註資料的生成預訓練策略大大降低人工標注成本,推動無監督與自監督學習在視覺領域的興起,改變過往視覺學習高度依賴標註數據的現狀。
3. Transformer在視覺的普適性確認:iGPT證明Transformer不只適用於序列資料,也能成為處理大規模視覺資訊的強大工具,促使後續如Vision Transformer (ViT)、Swin Transformer等架構誕生和廣泛應用。
4. 促進更靈活的生成模型設計:透過純像素序列自回歸建模,研究社群開始探索更靈活、結構化的生成模型設計思維,如基於序列生成的圖像編碼器、更先進的離散表示方法等,推動整個深度生成模型技術的進步。
總結
總結而言,Chen 等人在 ICML 2020 發表的 iGPT 論文,透過純Transformer架構,自回歸方式生成預訓練圖像像素序列,開創了圖像生成與理解的一條全新路徑。其拋棄了傳統CNN視覺偏置,以原生的語言生成思想成功應用於像素層面,實驗結果證明了生成預訓練對於無監督視覺特徵學習的巨大潛力。此研究不僅在模型設計上具有里程碑意義,也為後續多模態AI與大型無監督視覺模型的發展奠定了理論與實踐基礎,影響深遠且持續延燒,至今仍被視為跨域生成模型研究的重要參考。
論文資訊
📄 Generative Pretraining From Pixels (iGPT)
👥 Chen, Radford, Child, Wu, Jun, Luan, Sutskever
🏆 ICML 2020 · Outstanding Paper

沒有留言:
張貼留言