行有餘力則以學文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

在自然語言處理（NLP）領域，Transformer 架構自 2017 年由 Vaswani 等人提出以來，迅速成為各類語言模型的標準架構，憑藉其強大的序列建模能力及自注意力（self-attention）機制，突破了過去依賴 RNN、CNN 的限制。然而，在電腦視覺（CV）領域，Transformer 的應用仍較為有限，多數先前工作多在 CNN 架構中嵌入注意力機制，或將 Transformer 用於替代 CNN 之特定模塊，而非完全取代 CNN。
本文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》，由 Dosovitskiy 等學者於 ICLR 2021 發表，獲得 Outstanding Paper 獎項，提出並驗證了 ViT（Vision Transformer）這一全新概念：直接將影像切割成固定大小（16×16 像素）的圖像塊，將每個塊視作「詞彙」序列，進入純 Transformer 編碼器模型，無需任何卷積結構，即可完成圖像分類任務。該論文不僅成功打破 CNN 在影像辨識中的統治地位，更展現 Transformer 架構在大型視覺數據集上的巨大潛力。

研究背景與動機

傳統影像識別多靠 CNN 來學習不同尺度與空間區域的特徵，卷積核的共享參數與局部感受野優勢是其成功的關鍵。然而，CNN 的設計也帶來固有限制──感受野受限且不易建模全局信息，尤其對於長距離依賴的特徵表達相對薄弱。

Transformer 的核心──自注意力機制，天然具備建模全局關聯的能力，這在自然語言處理中已證明非常有效。於是研究者開始思考：如果我們將影像視為一串「詞彙」（patches），並直接利用 Transformer，是否能得到與 CNN 不同甚至更優越的特徵表徵？此外，當規模足夠大且有充足預訓練資料支持下，純 Transformer 架構是否有機會超越傳統 CNN？這正是 ViT 動機的核心。

核心方法與創新

1. 將影像切割為 Patch 序列： ViT 首先將輸入影像分割成固定大小的非重疊 patch，典型尺寸為 16×16 像素。每個 patch 簡化為一維向量，透過線性映射成為 Transformer 輸入的嵌入向量（embedding）。這個過程相當於 NLP 領域中將詞彙轉成詞向量。

2. 引入位置編碼：由於 Transformer 本身不具備位置關係的感知，ViT 類似 NLP 作法，在 patch 嵌入中加入可學習的位置編碼（positional embeddings），保留圖像區塊的空間結構信息。

3. 使用純 Transformer 編碼器：ViT 使用傳統的多層 Transformer 編碼器架構，各層包含多頭自注意力（multi-head self-attention）、前饋神經網路（feed-forward network）模組與層正規化（layer normalization）。不同於以往是用 CNN 提取特徵，ViT 全盤仰賴 Transformer 進行特徵抽取與表示。

4. 分類標籤 token：類似 BERT 的 "CLS" token，ViT 在輸入序列前新增一個學習向量作為整體圖像的表徵，Transformer 輸出該 token 後經過 MLP 頭即為分類結果。

5. 大規模預訓練：ViT 在 ImageNet-21k（約 1400 萬張圖）或 JFT-300M（Google 內部大規模資料集）上進行長時間預訓練，再在下游影像分類任務中微調。此舉非常關鍵，使得 Transformer 可以學到普遍且具判別力的視覺特徵。

主要實驗結果

論文對 ViT 進行了全面性的實驗評估：

在 ImageNet-1k 上的表現： 透過充分的預訓練（預訓練資料多且訓練時間長），ViT 模型達到甚至超過了當時最佳的卷積網路（EfficientNet）性能。
小型資料集下的微調：在 CIFAR-100、VTAB（包括多種視覺任務），ViT 模型僅用 ImageNet 預訓練權重微調，依舊可以達到競爭力表現，證明模型能遷移至多種場景。
訓練複雜度和計算效率：ViT 使用 Transformer 架構，訓練過程可高度並行化，且在大型資料集上，所需的訓練資源及時間相比相近性能的 CNN 有明顯降低，顯示架構具備優良的擴展性。

對 AI 領域的深遠影響

ViT 的成功提出具有多方面重要啟示：

純 Transformer 架構在視覺領域的可行性與優越性：ViT 首度證明，不需依靠複雜的 CNN 操作，Transformer 自身即可勝任影像分類任務，並且在規模夠大、數據充足的前提下超越傳統卷積模型。這為視覺模型設計提供全新思路，促使後續研究快速發展出更多Transformer為基礎的視覺模型。
大數據預訓練的重要性：ViT 取勝的重要條件是海量數據的預訓練，揭示 Transformer 架構需要依靠大規模資料學習豐富的視覺特徵，提醒研究者設計與收集更大、更高質量的視覺數據集。
跨模態模型設計的契機：ViT 將圖像切成類似詞彙的patch，使得影像處理管線與 NLP 更趨同化，這為未來多模態模型（如圖像與文本共學習）提供統一框架和更理想的橋樑。
後續發展的基礎：ViT 發表後，迅速催生出 Transformer 在物體偵測、語義分割、視覺生成等多種視覺任務的應用，例如 DETR、Swin Transformer 等，可謂是視覺 Transformer 時代的曙光。

結語

總結而言，《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》開創性地證明純 Transformer 架構能夠在電腦視覺領域達到甚至超越最先進的卷積神經網絡性能，特別是在大規模預訓練背景下。其核心創新在於將影像視作一串 patch 序列，結合長程全局自注意機制，克服了 CNN 局部感受野的限制。這篇論文不僅提升了 Transformer 在視覺任務中的地位，更為後續相關研究與產業應用奠定了理論與方法基礎，是 AI 視覺研究中一座具有里程碑意義的重要里程碑。

論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

行有餘力則以學文

常用資訊速查

2026年4月5日星期日

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

結語

沒有留言:

張貼留言

常用資訊速查

2026年4月5日 星期日

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

結語

沒有留言:

張貼留言

2026年4月5日星期日