2026年6月17日 星期三

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解說

隨著深度學習的快速發展,卷積神經網路(CNN)幾乎主導了電腦視覺領域多年,成為影像分類、物件偵測等任務的核心架構。相較之下,Transformer 架構在自然語言處理(NLP)領域的成功,則引領了一波基於自注意力機制的模型革新。然而,將純粹的 Transformer 架構直接應用於影像任務的挑戰始終存在:影像的高維度與結構化特性使得 Transformer 直面計算資源與樣本需求困難,於是過去多數研究傾向於將注意力機制與卷積結合,或是在 CNN 架構中局部替代部分元件,避免全面取代傳統結構。

在此背景下,來自 Google Brain 的 Dosovitskiy 等人於 2021 年 ICLR 發表的「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」,即 Vision Transformer(ViT),以其創新思維打破了視覺任務中卷積網路不可或缺的迷思。該論文獲選為 ICLR 傑出論文,開拓了純 Transformer 架構在影像分類上的新時代。

研究背景與動機

Transformer 在 NLP 領域強調序列中元素間的全局關聯,透過自注意力機制捕捉長距離依賴關係,克服了傳統循環神經網路對序列順序依賴的限制。對比之下,影像是具有高度空間結構性的數據,傳統以 CNN 為主:局部卷積與池化層不僅有效提取局部特徵,亦透過層次結構抽象全局語意。早期嘗試將 Transformer 直接應用於影像面臨著尺寸巨大、以及 Transformer 訓練樣本需求量龐大的困難。

ViT 的動機在於:假設影像可視為一串「視覺詞彙」(visual words),以固定大小(例如 16x16像素)分割成多個不重疊小區塊,將每個區塊展平成向量序列,再餵入 Transformer 模型。這樣的做法不僅模仿 NLP 中字詞序列的輸入結構,更有助於直接利用 Transformer 強大的全局注意力對跨區塊關係建模,理論上能跨越局部卷積限制。

核心方法與技術創新

ViT 的核心技術架構主要可拆解為以下幾個關鍵創新點:

  • 影像分塊成序列輸入:原始影像高維陣列透過切割成 16x16 像素的固定大小小塊,然後對每一小塊使用線性投影(Linear Projection)映射成 D 維度的向量,整體形成一個序列。此處,影像被「平鋪」為一長序列,類比文字序列輸入的形式。
  • 加入位置編碼(Positional Encoding):因為 Transformer 自身不具備序列中的位置信息,ViT 引入可學習的位置編碼向量加到每個區塊的向量表示之中,使模型能捕捉影像中各區塊的空間配置與相對關係。
  • 分類標記(Classification Token):在輸入序列前加入一個特殊的可學習分類標記向量 [CLS],Transformer 輸出該向量即代表整張影像的全局表徵,類似 BERT 中的做法,方便用於下游的分類任務。
  • 純 Transformer 編碼器:Poent 與區塊向量序列一起進入多層標準 Transformer Encoder 堆疊,利用多頭自注意力機制和前饋網路捕獲整張影像區塊間豐富的語義關係,替代以往 CNN 的層次卷積特徵學習。
  • 大規模資料預訓練與微調:ViT 尤其強調在大規模數據集(例如 JFT-300M)上先行預訓練,再轉移到目標小型或中型數據集(如 ImageNet、CIFAR-100)微調,有效解決 Transformer 澎湃參數對巨量數據的需求,達成優異性能。

主要實驗結果

Dosovitskiy 等人在多個基準數據集展開廣泛實驗,展示 ViT 在影像分類任務上的優異表現:

  • ImageNet 考驗:ViT 基於 JFT-300M 超大資料集預訓練,微調在 ImageNet 1k 類別資料集,高階版本(ViT-L/16 和 ViT-H/14)達到 88% 以上的準確率,超越以往最先進的卷積網路架構如 EfficientNet,且訓練時間與計算成本更低。
  • CIFAR-100 與 VTAB:在小型到中型資料集(如 CIFAR-100 及视觉任务基准集合 VTAB)上,ViT 藉由預訓練獲得的高品質特徵表示,可有效避免過度擬合風險,優於許多標準 CNN 模型。
  • 計算效率與資源:相比大型 CNN,ViT 不依賴複雜的卷積結構,架構相對簡潔且易於擴展,且在大數據預訓練環境下展現可觀計算效率。

值得注意的是,ViT 在小數據時表現不佳的弱點,也被論文清楚指出,強調 Transformer 成功須搭配龐大且多樣化的資料集,這反映了自注意力模型的資料依賴性。

對 AI 領域的深遠影響

ViT 論文深刻改變了視覺深度學習的研究路徑,開啟了純 Transformer 架構在影像領域的全新研究風潮,具體涵蓋:

  1. 架構思維轉變:ViT 挑戰傳統卷積網路統治地位,證明影像辨識可完全透過 Transformer 底層架構來完成,這讓研究者開始重新思考深度視覺模型的基本組成與結構設計。
  2. 促進大型預訓練模型普及:ViT 強調大規模預訓練的重要性,推動視覺領域朝向類似 NLP 領域 BERT、GPT 採用大數據、大模型的發展趨勢。這也促進了更多視覺 Transformer 衍生架構與多模態學習的興起。
  3. 轉移學習與跨場景應用:ViT 證實了高品質的圖像表示可從超大數據預訓練模型中獲得,並有效轉移至多種下游任務,增強模型的泛化能力與應用靈活性,尤其對少樣本學習與小眾數據集效益顯著。
  4. 催生後續架構改進:ViT 之後催生了眾多改良版本,如 Swin Transformer(層次化結構結合局部注意力),DeiT(高效輕量預訓練策略),以及專為視覺設計的多種注意力變體,推動算法與硬體協同優化。

總結來說,「An Image is Worth 16x16 Words」不只是一篇頂會傑出論文,更是一道分水嶺,讓整個電腦視覺領域看見 Transformer 架構的無限可能性,也驅動學術界與產業界積極投入新一代視覺大模型的研發。對於具備基礎 AI 知識的工程師或研究生而言,深入理解 ViT 的架構與實驗設計,不僅有助於掌握現代視覺深度學習前沿動態,也能為後續跨模態、多任務模型的設計奠定堅實基礎。


論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:

張貼留言