隨著深度學習技術的快速發展,卷積神經網路(Convolutional Neural Networks, CNNs)早已成為影像識別領域的主流架構。然而,自從 Transformer 架構在自然語言處理(NLP)領域取得突破性成果後,學界開始探索其在計算機視覺中的潛力。傳統上,將注意力機制應用於視覺任務多半是與 CNN 結合,或者將 Transformer 嵌入至 CNN 的部分結構中以強化表徵能力。直到 Dosovitskiy 等人發表了「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)」,徹底顛覆了這種慣例,證明了純粹以 Transformer 架構處理影像,且不依賴卷積層,也能在大規模訓練與微調之下,達成卓越的影像分類表現。
研究背景與動機
NLP 領域自從 Transformer 被提出後,標準的 Seq2Seq 模型便被徹底改寫,其對長距離依賴關係的捕捉能力優於以往的 RNN 或 CNN 結構。相較之下,視覺領域還是以 CNN 為最有效的直接圖像表示方式,這是因為圖像具有強烈的局部結構與平移不變性,CNN 的卷積操作能有效捕捉局部特徵並利用權重共享降低模型複雜度。
然而,Transformer 所具備的自注意力(Self-Attention)機制,可全局性整合影像中的資訊,尤其對於捕捉全局性關聯有天然優勢。過去的嘗試大多結合 CNN 與注意力,如將注意力放置於某些特定層或輔助CNN表徵學習,尚未完全發揮 Transformer 在視覺上的潛力。Dosovitskiy 等人提出的 ViT,旨在解答一個核心問題:純粹以 Transformer 來建模視覺任務,是否可行? 且在大規模資料集上訓練後是否能超越傳統 CNN?
核心方法與創新
ViT 的主要創新在於用極簡化的方式將影像轉換成類似 NLP 任務中的「字詞」序列,並完全捨棄卷積結構。具體而言,他們將原始 RGB 影像(尺寸通常為 224×224)分割成固定大小的 16×16 像素「影像塊」(patches)。每個 patch 被展平成一維向量後,經過一個線性投影轉成嵌入向量(embedding),這樣一來整張影像就變成一組「視覺詞彙」序列。
接著,將與 NLP Transformer 類似的方法,加入位置編碼(position embedding)以維持影像塊之間的空間關係,作為輸入送入標準的 Transformer Encoder。Transformer 內部結構與標準的 BERT 模型類似,包含多層多頭自注意力機制及 Feed-Forward Network。整體架構相當簡潔,其設計哲學是用最純粹的 Transformer 去直接處理視覺訊號,而非混合其他 CNN 元素。
為完成分類任務,ViT 在輸入序列前面加入一個分類符號(class token),跟 NLP 中 BERT 的 [CLS] 相似。Transformer 的最後輸出對此 class token 的向量即用於後續的分類層。此種設計使 ViT 訓練過程與 NLP 領域完全一致,也方便利用現有的 Transformer 優化技術。
主要實驗結果
ViT 的實驗主要證明三大重點:
- 在大規模預訓練資料下的表現優越:ViT 在包含超過 14 百萬圖像的 ImageNet-21k 及 JFT-300M 等大規模資料集上進行預訓練,並在多個下游中等規模資料集(如 ImageNet、CIFAR-100、VTAB)上微調。結果顯示,ViT 在較少的訓練時間與資源下,達成對標 CNN(例如 ResNet)的超越表現。例如,在 ImageNet-1k 上,ViT-Large 模型優於同等參數量的 ResNet-152、ResNeXt-101 等頂尖 CNN 模型。
- 模型大小與資料量的關係:ViT 表現高度依賴大規模預訓練,若僅用小型資料集訓練,效果不如 CNN。這說明 Transformer 需要海量資料以充分學習圖像中的全局特徵與模式。
- 計算效率與可伸縮性:相較於傳統 CNN,ViT 在訓練過程中顯示出更高的參數效率,以較少的計算資源達到高準確度,顯示這種架構在超大規模模型設計上具有優勢。
此外,作者也比較了不同尺寸的影像 patch(如 16×16、32×32),發現較小的 patch 尺寸可帶來更細緻的影像解析度,但計算量也相對增加,須在準確度與效率間權衡。
對 AI 領域的深遠影響
ViT 的成功打破了過去長期以來「CNN 是視覺任務不二法門」的觀念,證明 Transformer 架構也能在視覺領域獲得一流水準的效果,為影像識別技術指引了全新的方向。它的影響體現在多個層面:
- 架構簡化及統一趨勢:ViT 提供了一個純粹的 Transformer 統一視覺與語言模型方法,使得多模態模型的研發更具一致性,減少架構設計複雜度。
- 促進大規模多任務學習和自監督學習:由於 Transformer 在自然語言處理領域已有成熟的預訓練技術,ViT 的出現促使許多後續研究將類似的自監督學習策略(如 masked image modeling)引入視覺領域,進一步提升模型的泛化與表現能力。
- 激勵後續模型創新:ViT 激起了如 DeiT (Data-efficient Image Transformers)、Swin Transformer 等衍生作品,不斷優化效率、結合局部結構信息,使 Transformer 在視覺領域的應用愈發廣泛,不僅限於分類,更涵蓋物件偵測、分割等任務。
- 能源與計算資源意識的提高:ViT 展示了大規模 Transformer 在視覺任務上的競爭力,但同時也反映出對大量訓練資料和計算資源的高度依賴,促使社群關注如何在擴大模型效能與降低運算成本之間取得平衡,激勵輕量級架構與剪枝方法的發展。
總結而言,ViT 論文不僅是一個具備突破性的技術貢獻,更是推動整個計算機視覺領域重新思考模型架構的里程碑。它提醒我們 Transformer 不單是語言處理的專利,而是一種極具潛力的通用深度學習架構,未來隨著資料與計算資源的持續增長,純 Transformer 模型有望在更多視覺與多媒體任務中掀起革命。
論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929
