2026年6月27日 星期六

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)深度解析

在人工智慧領域,Transformer 架構自從被提出以來,幾乎在自然語言處理(NLP)領域掀起一場革命。隨著BERT、GPT等模型的成功,Transformer成為現代NLP不可或缺的基石模型。然而,在電腦視覺(Computer Vision, CV)領域,傳統上主要依賴卷積神經網路(Convolutional Neural Networks, CNNs)來進行圖像辨識及其他視覺任務。雖然有研究嘗試將注意力機制結合進CNN架構,或將Transformer用作CNN的輔助模組,但真正「純粹」的Transformer模型直接用於影像識別仍是一項挑戰。

本論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》(簡稱ViT)由Dosovitskiy等人於2021年發表於ICLR,並獲頒Outstanding Paper獎項。論文描繪了一條突破性路徑:完全捨棄傳統卷積結構,直接將Transformer架構運用於圖像辨識任務。ViT成功透過將圖像切分成固定大小的區塊(patches),將這些區塊視為類似文本中詞(word)的輸入序列,並利用Transformer對整張圖片進行全局建模。此設計不僅在多個視覺資料集上表現優異,更證明Transformer本身具備獨立處理視覺任務的強大能力。

研究背景與動機

傳統CNN架構主要透過局部卷積核來捕捉鄰域特徵,不斷堆疊卷積層以獲取越來越高層次的語義資訊。重點在於「局部性」與「平移不變性」。然而,CNN在面對各種視覺任務時,某些階段可能無法有效捕捉長距離依賴(long-range dependencies),這點Transformer以其全局自注意力機制天生擅長。此外,Transformer可以直接建模圖像中不同區域的長距離關聯,理論上能彌補CNN對於全局資訊理解的不足。

過去有研究嘗試結合CNN與Transformer,但這些混合模型通常仍以CNN為主體。ViT的提出旨在直接驗證,是否能完全捨棄CNN架構,使用純Transformer結構來完成圖像分類任務。若成功,將為視覺模型設計帶來全新思維,並可能促進更多基於注意力機制的視覺任務發展。

核心方法與創新

ViT的核心創新包含以下幾個部分:

  1. 圖像切片成詞彙序列:將輸入圖像分割成固定大小的正方形patches(如16x16像素),每個patch會被線性嵌入(linear projection)成一個向量。這個過程類似NLP中將詞轉成詞嵌入(word embeddings)。因此,一張圖片轉化成一串「詞彙向量」,可以視作Transformer的輸入序列。
  2. 位置編碼:由於Transformer缺乏CNN所具的空間感知能力,需要額外加入位置編碼(positional embeddings),告訴模型這些patch在整張圖片中的空間位置,保留結構資訊。
  3. 純Transformer架構:ViT完全採用標準的Transformer編碼器(encoder)架構,包含多層多頭自注意力(multi-head self-attention)及前饋全連接層,沒有使用任何卷積運算。
  4. [CLS]分類標記:在輸入序列前加入一個特殊分類符號(classification token,類似BERT的[CLS]),模型輸出該token的向量作為整張圖片的表示,用於後續的分類頭(classification head)分類工作。
  5. 大規模預訓練:ViT的成功極度依賴於大規模的預訓練資料,如ImageNet-21k或JFT-300M等,透過大尺度資料學習強大的圖像表徵。再將預訓練權重微調到較小的資料集,如ImageNet-1k、CIFAR-100等。

主要實驗結果

ViT 在多個資料集上進行實驗驗證,顯示出卓越的性能:

  • ImageNet分類任務:在ImageNet-1k上,ViT和現代最先進的卷積網路(如ResNet和EfficientNet)相當,甚至在資源使用上更有效率。特別是在大規模預訓練後,ViT能超越許多CNN模型的準確率。
  • 跨資料集泛化能力:ViT在VTAB(Visual Task Adaptation Benchmark)等多樣化的中小型視覺資料集上微調,表現同樣強勁,達到或超越傳統CNN模型,顯示良好的泛化能力。
  • 計算效率:相較於同等性能的CNN,ViT在訓練時參數量與計算資源需求相對較低。此一特性對於資源有限的研究與工業應用相當重要。

對 AI 領域的深遠影響

ViT的出現代表了一個關鍵的里程碑,充分顯示Transformer架構在跨模態學習的潛力。不再侷限於語言領域,Transformer能以純架構方式,突破CNN在視覺任務上的瓶頸與限制。

此篇論文改變了多數研究者對視覺模型設計的固有印象,啓發後續大量研究嘗試純Transformer或注意力為核心的視覺架構,例如Swin Transformer、DeiT(Data-efficient Image Transformers)等關鍵後繼工作。更重要的是,ViT推動了大規模預訓練策略在視覺領域的普及,不同於過去強調卷積層數或深度,研究者開始重視資料擴充與多樣性。

此外,ViT的概念也鼓勵跨模態融合發展,如視覺-語言模型(CLIP、ALIGN等)多以Transformer結構為主,增進多模態信息互動能力。未來隨著硬體性能提升與巨量資料累積,Transformer有望在更多視覺相關應用中成為主流架構。

總結

Dosovitskiy等人的「An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale」以獨到的方式挑戰視覺模型設計傳統,成功提出純Transformer架構ViT,證明Transformer能以序列方式直接處理圖像並有效進行分類任務。其創新在於將圖像切片轉成類似詞彙序列,結合多層Transformer編碼器充分捕捉全局特徵,透過大規模數據預訓練展現優越性能。此研究成果在AI視覺領域引發持續熱潮,成為近年來最具影響力的視覺模型之一,為後續研究與應用開啟了新的篇章。


論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:

張貼留言