在自然語言處理(NLP)領域,Transformer 架構自 2017 年由 Vaswani 等人提出以來,迅速成為各類語言模型的標準架構,憑藉其強大的序列建模能力及自注意力(self-attention)機制,突破了過去依賴 RNN、CNN 的限制。然而,在電腦視覺(CV)領域,Transformer 的應用仍較為有限,多數先前工作多在 CNN 架構中嵌入注意力機制,或將 Transformer 用於替代 CNN 之特定模塊,而非完全取代 CNN。
本文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,由 Dosovitskiy 等學者於 ICLR 2021 發表,獲得 Outstanding Paper 獎項,提出並驗證了 ViT(Vision Transformer)這一全新概念:直接將影像切割成固定大小(16×16 像素)的圖像塊,將每個塊視作「詞彙」序列,進入純 Transformer 編碼器模型,無需任何卷積結構,即可完成圖像分類任務。該論文不僅成功打破 CNN 在影像辨識中的統治地位,更展現 Transformer 架構在大型視覺數據集上的巨大潛力。
研究背景與動機
傳統影像識別多靠 CNN 來學習不同尺度與空間區域的特徵,卷積核的共享參數與局部感受野優勢是其成功的關鍵。然而,CNN 的設計也帶來固有限制──感受野受限且不易建模全局信息,尤其對於長距離依賴的特徵表達相對薄弱。
Transformer 的核心──自注意力機制,天然具備建模全局關聯的能力,這在自然語言處理中已證明非常有效。於是研究者開始思考:如果我們將影像視為一串「詞彙」(patches),並直接利用 Transformer,是否能得到與 CNN 不同甚至更優越的特徵表徵?此外,當規模足夠大且有充足預訓練資料支持下,純 Transformer 架構是否有機會超越傳統 CNN?這正是 ViT 動機的核心。
核心方法與創新
1. 將影像切割為 Patch 序列: ViT 首先將輸入影像分割成固定大小的非重疊 patch,典型尺寸為 16×16 像素。每個 patch 簡化為一維向量,透過線性映射成為 Transformer 輸入的嵌入向量(embedding)。這個過程相當於 NLP 領域中將詞彙轉成詞向量。
2. 引入位置編碼:由於 Transformer 本身不具備位置關係的感知,ViT 類似 NLP 作法,在 patch 嵌入中加入可學習的位置編碼(positional embeddings),保留圖像區塊的空間結構信息。
3. 使用純 Transformer 編碼器:ViT 使用傳統的多層 Transformer 編碼器架構,各層包含多頭自注意力(multi-head self-attention)、前饋神經網路(feed-forward network)模組與層正規化(layer normalization)。不同於以往是用 CNN 提取特徵,ViT 全盤仰賴 Transformer 進行特徵抽取與表示。
4. 分類標籤 token:類似 BERT 的 "CLS" token,ViT 在輸入序列前新增一個學習向量作為整體圖像的表徵,Transformer 輸出該 token 後經過 MLP 頭即為分類結果。
5. 大規模預訓練:ViT 在 ImageNet-21k(約 1400 萬張圖)或 JFT-300M(Google 內部大規模資料集)上進行長時間預訓練,再在下游影像分類任務中微調。此舉非常關鍵,使得 Transformer 可以學到普遍且具判別力的視覺特徵。
主要實驗結果
論文對 ViT 進行了全面性的實驗評估:
- 在 ImageNet-1k 上的表現: 透過充分的預訓練(預訓練資料多且訓練時間長),ViT 模型達到甚至超過了當時最佳的卷積網路(EfficientNet)性能。
- 小型資料集下的微調:在 CIFAR-100、VTAB(包括多種視覺任務),ViT 模型僅用 ImageNet 預訓練權重微調,依舊可以達到競爭力表現,證明模型能遷移至多種場景。
- 訓練複雜度和計算效率:ViT 使用 Transformer 架構,訓練過程可高度並行化,且在大型資料集上,所需的訓練資源及時間相比相近性能的 CNN 有明顯降低,顯示架構具備優良的擴展性。
對 AI 領域的深遠影響
ViT 的成功提出具有多方面重要啟示:
- 純 Transformer 架構在視覺領域的可行性與優越性:ViT 首度證明,不需依靠複雜的 CNN 操作,Transformer 自身即可勝任影像分類任務,並且在規模夠大、數據充足的前提下超越傳統卷積模型。這為視覺模型設計提供全新思路,促使後續研究快速發展出更多Transformer為基礎的視覺模型。
- 大數據預訓練的重要性:ViT 取勝的重要條件是海量數據的預訓練,揭示 Transformer 架構需要依靠大規模資料學習豐富的視覺特徵,提醒研究者設計與收集更大、更高質量的視覺數據集。
- 跨模態模型設計的契機:ViT 將圖像切成類似詞彙的patch,使得影像處理管線與 NLP 更趨同化,這為未來多模態模型(如圖像與文本共學習)提供統一框架和更理想的橋樑。
- 後續發展的基礎:ViT 發表後,迅速催生出 Transformer 在物體偵測、語義分割、視覺生成等多種視覺任務的應用,例如 DETR、Swin Transformer 等,可謂是視覺 Transformer 時代的曙光。
結語
總結而言,《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》開創性地證明純 Transformer 架構能夠在電腦視覺領域達到甚至超越最先進的卷積神經網絡性能,特別是在大規模預訓練背景下。其核心創新在於將影像視作一串 patch 序列,結合長程全局自注意機制,克服了 CNN 局部感受野的限制。這篇論文不僅提升了 Transformer 在視覺任務中的地位,更為後續相關研究與產業應用奠定了理論與方法基礎,是 AI 視覺研究中一座具有里程碑意義的重要里程碑。
論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929
沒有留言:
張貼留言