常用資訊速查

2026年4月29日 星期三

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

在自然語言處理(NLP)領域,Transformer 架構自 2017 年問世後迅速成為標準模型,並引領諸多突破。然而,在電腦視覺(CV)領域,Transformer 的應用則顯得較為受限,普遍還是以卷積神經網絡(CNN)為主體。大部分嘗試都是在 CNN 架構中加入注意力機制(Attention),或採用 Transformer 模塊替換 CNN 的部分結構,卻仍依賴卷積的特性。Dosovitskiy 等人於 ICLR 2021 發表的「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」(簡稱 ViT)論文,提出一個不使用任何卷積層、純粹以 Transformer 架構直接處理影像的方法。此論文不僅獲得傑出論文獎,更在視覺辨識領域帶來革命性思維。

研究背景與動機

傳統的視覺辨識任務高度仰賴 CNN,由於其優秀的空間局部特徵擷取能力與平移不變性,被廣泛應用於影像分類、物件偵測等任務。然而,相較 NLP 任務,視覺領域的 Transformer 應用受限,原因在於影像的高維度與計算資源的瓶頸。此外,Transformer 需要大量資料來學習有效表示。ViT 的主要動機即是:問一個問題,「是否能完全拋棄 CNN,直接用純 Transformer 架構來進行影像分類,且在大規模資料預訓練後,達到與或超越先進 CNN 的辨識表現?」

此動機背後蘊含兩個挑戰:

  1. 如何將影像轉換成 Transformer 可接受的序列輸入形式?
  2. 如何在變換後保持空間結構資訊,並充分利用 Transformer 的長距離依賴建模能力?

核心方法與創新

ViT 的核心架構是透過將原始影像切割成固定大小的「影像區塊」(patches),類比為 NLP 中的 token。以論文中的設定為例,一張圖片大小為 224x224,切成 16x16 大小的 patch,會得到 (224/16)^2 = 14x14 = 196 個影像片段。每個 16x16 的 RGB 影像塊會被平面展開為一維向量,並透過線性投影映射成 Transformer 可接受的 D 維向量空間,成為模型的輸入序列。

為了讓 Transformer 理解影像的空間訊息,作者在每個影像塊向量中加入了位置編碼(positional encoding),讓模型能夠捕捉鄰近區塊的位置關係。此外,ViT 引入了一個特殊的「類別標記(class token)」,此向量與輸入序列一同進入 Transformer,最終透過分類頭(classification head)用來預測圖像分類結果。

模型架構方面,ViT 採用了標準的 Transformer 編碼器結構,包括多頭自注意力機制(Multi-Head Self-Attention)和前饋神經網路(Feed-Forward Network, FFN),並且在模塊間加上層正規化(Layer Normalization)和殘差連結(Residual Connection),這也維持了 Transformer 原有的強大表達能力。

此架構的最大創新點在於,完全不使用 CNN,純粹用 Transformer 處理影像序列,突顯了 Transformer 在視覺領域的與眾不同潛力。再者,ViT 利用大規模預訓練資料(如 ImageNet-21k 或 JFT-300M)先行訓練,再進行下游任務微調,極大提高了模型的泛化能力。

主要實驗結果

為驗證 ViT 的有效性,作者將 ViT 與當時先進的 CNN架構(例如 EfficientNet)進行多項比較。實驗中使用大量公眾資料集,包括 ImageNet (1k 類別版本)、CIFAR-100、VTAB(Visual Task Adaptation Benchmark)等。

重點結果如下:

  • 在 ImageNet 1k 上,ViT 模型在充分預訓練後,超越了同等計算成本的最新 CNN 架構,展現出更好的分類準確率。
  • 在中小型資料集如 CIFAR-100 和 VTAB,ViT 也展現出良好的遷移學習能力,因其預訓練期間學得的強大影像表示有助於多樣任務。
  • 訓練效率方面,雖然 Transformer 模型本身看似計算密集,但 ViT 在預訓練及微調過程中使用的資源比之前的 CNN 系統更低,尤其在超大模型及大規模資料上極具優勢。
  • 模型對 patch 大小和預訓練資料量十分敏感,大幅影響性能,展示了建構 Transformer 視覺模型的調校特性。

對 AI 領域的深遠影響

ViT 的成功帶來了以下深遠影響:

1. 開啟純 Transformer 在視覺領域的新篇章

ViT 打破了視覺領域對 CNN 不可或缺的迷思,證明 Transformer 可以在無卷積的條件下達到甚至超越傳統 CNN。促使後續大量研究者投入 Transformer 模型結構設計,例如 Swin Transformer、DeiT 等進一步優化和深化視覺 Transformer。

2. 強調大規模預訓練的重要性

ViT 顯示 Transformer 模型非常依賴大量多樣化資料的預訓練,這與 NLP 領域類似。這催生更多跨模態大模型的研發趨勢,如 CLIP 和 DALL·E 等利用大量網路影像-文字資料融合預訓練的模型。

3. 模型結構設計新視野

ViT 不是單純轉換 CNN 至 Transformer,而是透過圖像塊作為 token,將 Vision 問題「序列化」,帶來了新的看待影像問題的思考角度。這促使更多混合架構的研究,品質注意力機制的效率改進,以及更高效的視覺特徵表示。

4. 實務應用與產業革新

ViT 的提出加速了 Transformer 在醫療影像、衛星影像、工業視覺等特殊領域的運用,尤其是在資料豐富的前提下,ViT 的可擴展性與優異效能使其成為重要選擇。並且在硬體專門設計、量化壓縮等技術推動下,純 Transformer 視覺模型逐步實現實際部署。

總結

總體而言,「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」這篇論文,透過提出一個簡潔而高效的純 Transformer 視覺架構,顛覆了以 CNN 為主流的電腦視覺觀念。ViT 用「影像區塊作為文字序列」的創新輸入形式,讓 Transformer 在視覺任務表現出前所未有的潛力。結合大規模預訓練機制,ViT 不僅在主流影像辨識任務中取得領先表現,更在學界和產業界掀起一股設計純 Transformer 視覺模型的熱潮,對未來人工智慧跨域融合及多模態模型的發展起了關鍵推動作用。


論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:

張貼留言