行有餘力則以學文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

在自然語言處理（NLP）領域，Transformer 架構自 2017 年問世後迅速成為標準模型，並引領諸多突破。然而，在電腦視覺（CV）領域，Transformer 的應用則顯得較為受限，普遍還是以卷積神經網絡（CNN）為主體。大部分嘗試都是在 CNN 架構中加入注意力機制（Attention），或採用 Transformer 模塊替換 CNN 的部分結構，卻仍依賴卷積的特性。Dosovitskiy 等人於 ICLR 2021 發表的「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」（簡稱 ViT）論文，提出一個不使用任何卷積層、純粹以 Transformer 架構直接處理影像的方法。此論文不僅獲得傑出論文獎，更在視覺辨識領域帶來革命性思維。

研究背景與動機

傳統的視覺辨識任務高度仰賴 CNN，由於其優秀的空間局部特徵擷取能力與平移不變性，被廣泛應用於影像分類、物件偵測等任務。然而，相較 NLP 任務，視覺領域的 Transformer 應用受限，原因在於影像的高維度與計算資源的瓶頸。此外，Transformer 需要大量資料來學習有效表示。ViT 的主要動機即是：問一個問題，「是否能完全拋棄 CNN，直接用純 Transformer 架構來進行影像分類，且在大規模資料預訓練後，達到與或超越先進 CNN 的辨識表現？」

此動機背後蘊含兩個挑戰：

如何將影像轉換成 Transformer 可接受的序列輸入形式？
如何在變換後保持空間結構資訊，並充分利用 Transformer 的長距離依賴建模能力？

核心方法與創新

ViT 的核心架構是透過將原始影像切割成固定大小的「影像區塊」（patches），類比為 NLP 中的 token。以論文中的設定為例，一張圖片大小為 224x224，切成 16x16 大小的 patch，會得到 (224/16)^2 = 14x14 = 196 個影像片段。每個 16x16 的 RGB 影像塊會被平面展開為一維向量，並透過線性投影映射成 Transformer 可接受的 D 維向量空間，成為模型的輸入序列。

為了讓 Transformer 理解影像的空間訊息，作者在每個影像塊向量中加入了位置編碼（positional encoding），讓模型能夠捕捉鄰近區塊的位置關係。此外，ViT 引入了一個特殊的「類別標記（class token）」，此向量與輸入序列一同進入 Transformer，最終透過分類頭（classification head）用來預測圖像分類結果。

模型架構方面，ViT 採用了標準的 Transformer 編碼器結構，包括多頭自注意力機制（Multi-Head Self-Attention）和前饋神經網路（Feed-Forward Network, FFN），並且在模塊間加上層正規化（Layer Normalization）和殘差連結（Residual Connection），這也維持了 Transformer 原有的強大表達能力。

此架構的最大創新點在於，完全不使用 CNN，純粹用 Transformer 處理影像序列，突顯了 Transformer 在視覺領域的與眾不同潛力。再者，ViT 利用大規模預訓練資料（如 ImageNet-21k 或 JFT-300M）先行訓練，再進行下游任務微調，極大提高了模型的泛化能力。

主要實驗結果

為驗證 ViT 的有效性，作者將 ViT 與當時先進的 CNN架構（例如 EfficientNet）進行多項比較。實驗中使用大量公眾資料集，包括 ImageNet (1k 類別版本)、CIFAR-100、VTAB（Visual Task Adaptation Benchmark）等。

重點結果如下：

在 ImageNet 1k 上，ViT 模型在充分預訓練後，超越了同等計算成本的最新 CNN 架構，展現出更好的分類準確率。
在中小型資料集如 CIFAR-100 和 VTAB，ViT 也展現出良好的遷移學習能力，因其預訓練期間學得的強大影像表示有助於多樣任務。
訓練效率方面，雖然 Transformer 模型本身看似計算密集，但 ViT 在預訓練及微調過程中使用的資源比之前的 CNN 系統更低，尤其在超大模型及大規模資料上極具優勢。
模型對 patch 大小和預訓練資料量十分敏感，大幅影響性能，展示了建構 Transformer 視覺模型的調校特性。

對 AI 領域的深遠影響

ViT 的成功帶來了以下深遠影響：

1. 開啟純 Transformer 在視覺領域的新篇章

ViT 打破了視覺領域對 CNN 不可或缺的迷思，證明 Transformer 可以在無卷積的條件下達到甚至超越傳統 CNN。促使後續大量研究者投入 Transformer 模型結構設計，例如 Swin Transformer、DeiT 等進一步優化和深化視覺 Transformer。

2. 強調大規模預訓練的重要性

ViT 顯示 Transformer 模型非常依賴大量多樣化資料的預訓練，這與 NLP 領域類似。這催生更多跨模態大模型的研發趨勢，如 CLIP 和 DALL·E 等利用大量網路影像-文字資料融合預訓練的模型。

3. 模型結構設計新視野

ViT 不是單純轉換 CNN 至 Transformer，而是透過圖像塊作為 token，將 Vision 問題「序列化」，帶來了新的看待影像問題的思考角度。這促使更多混合架構的研究，品質注意力機制的效率改進，以及更高效的視覺特徵表示。

4. 實務應用與產業革新

ViT 的提出加速了 Transformer 在醫療影像、衛星影像、工業視覺等特殊領域的運用，尤其是在資料豐富的前提下，ViT 的可擴展性與優異效能使其成為重要選擇。並且在硬體專門設計、量化壓縮等技術推動下，純 Transformer 視覺模型逐步實現實際部署。

總結

總體而言，「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」這篇論文，透過提出一個簡潔而高效的純 Transformer 視覺架構，顛覆了以 CNN 為主流的電腦視覺觀念。ViT 用「影像區塊作為文字序列」的創新輸入形式，讓 Transformer 在視覺任務表現出前所未有的潛力。結合大規模預訓練機制，ViT 不僅在主流影像辨識任務中取得領先表現，更在學界和產業界掀起一股設計純 Transformer 視覺模型的熱潮，對未來人工智慧跨域融合及多模態模型的發展起了關鍵推動作用。

論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

行有餘力則以學文

常用資訊速查

2026年4月29日星期三

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

1. 開啟純 Transformer 在視覺領域的新篇章

2. 強調大規模預訓練的重要性

3. 模型結構設計新視野

4. 實務應用與產業革新

總結

沒有留言:

張貼留言

常用資訊速查

2026年4月29日 星期三

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

1. 開啟純 Transformer 在視覺領域的新篇章

2. 強調大規模預訓練的重要性

3. 模型結構設計新視野

4. 實務應用與產業革新

總結

沒有留言:

張貼留言

2026年4月29日星期三