行有餘力則以學文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

2026年5月5日星期二

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

隨著 Transformer 架構在自然語言處理（NLP）領域的成功，研究者們嘗試將 Transformer 引入計算機視覺（Computer Vision, CV）任務，期望能突破傳統卷積神經網路（Convolutional Neural Networks, CNN）在視覺訊息建模上的限制。Dosovitskiy 等人於 2021 年 ICLR 發表的論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》提出了「Vision Transformer（ViT）」架構，以純 Transformer 模型取代傳統 CNN，直接處理圖像的線性展開序列，展現了令人驚豔的性能，並獲得當年 Outstanding Paper 獎項。本篇簡介將深入剖析 ViT 的研究背景、核心方法、實驗成果及其對 AI 領域的影響。

一、研究背景與動機

過去十年，CNN 因其在局部感受野、權重共享及平移不變性上的優勢，成為視覺任務的主流架構。然而，CNN 在捕捉長距離依賴（long-range dependencies）與全局特徵表徵方面仍有一定限制。與此同時，Transformer 架構憑藉自注意力機制（self-attention），能靈活地捕捉序列數據中的長距離依賴關係，已在 NLP 領域取得顯著成功。

前期視覺模型多採用 CNN-Transformer 混合結構，或將注意力機制加插入 CNN 之中，期望結合二者之長。但這也意味著對 CNN 的依賴仍然存在。該論文團隊質疑：是否有可能完全拋棄 CNN，僅以 Transformer 架構，透過合適的圖像前處理與序列結構，達成甚至超越 CNN 的性能？這成為 ViT 誕生的核心驅動力。

二、核心方法與創新

ViT 的主要創新在於將圖像重新定義為一個「詞彙」序列。具體而言，它將一張輸入圖像拆分成固定大小的非重疊補丁（patch），以 16×16 像素大小為最常用設定。每個補丁透過線性投影被編碼成一個向量，形成類似 NLP 中「詞」的序列輸入（patch embeddings）。這些補丁序列的長度約為影像大小除以補丁大小平方，例如對 224×224 的圖像，會產生 14×14=196 個 patch tokens。

在拼接了位置編碼（positional encoding）後，整個序列送入標準的 Transformer 編碼器（Transformer encoder）結構，核心是多頭自注意力（Multi-head Self-Attention）與前饋神經網路（Feed-Forward Network）層堆疊。模型頂端引入一個特殊的分類 token，該 token 經 Transformer 編碼後的表示用於最終圖像分類。

此設計擺脫了 CNN 的卷積與池化層，全靠純自注意力計算序列間所有元素的相關性，從而自動學習圖像的全局結構和特徵。ViT 也展現了 Transformer 架構在視覺任務的可擴展性與優越性。

此外，ViT 強調大規模預訓練數據的重要性。研究者在 ImageNet-21k（約 1400 萬張圖）和 JFT-300M（Google 內部擁有約 3 億標註圖像的資料庫）上進行漫長預訓練，讓模型學得更通用且具豐富視覺語義知識。隨後，透過微調（fine-tuning）於中小型標準資料集（如 ImageNet、CIFAR-100 等），呈現出優異精度與泛化能力。

三、主要實驗結果

在實驗部分，ViT 以多種不同模型大小（如 Base、Large、Huge）和不同輸入圖像尺寸（224×224、384×384）進行檢驗。核心發現包含：

優越準確率：在 ImageNet 上，ViT Large 模型（配合高解析度輸入）達到 88.55% 的頂峰準確率，超越當時多數先進 CNN 架構（如 ResNet、EfficientNet-B7）。
訓練效率高：相較於大型 CNN，ViT 在大規模資料預訓練下，訓練所需的運算量較少，表明其架構更為高效。
泛化能力強：在多種多樣化的視覺任務和資料集（包括 VTAB 多任務基準）均有優秀表現，展露出強大的跨任務遷移能力。
缺點揭示：若缺乏大規模預訓練資料，ViT 裝載樣本較少的資料時性能不如 CNN，顯示出對數據規模敏感，需要透過更好的正則化和數據增強解決此議題。

四、對 AI 領域的深遠影響

ViT 論文的發表對 AI 研究社群產生了多方面的深遠衝擊：

推翻 CNN 統治地位：ViT 證明了在充足資料與計算資源下，純 Transformer 架構能夠勝任主要的圖像辨識任務，開啟了視覺模型架構創新的新局。
促進視覺-語言統一模型研究：ViT 為融合多模態學習提供了基礎架構，後續眾多研究將 Transformer 延伸應用於跨模態如視覺問答（VQA）、影像描述（Image Captioning）等任務。
推廣大型預訓練思想：ViT 展示大型資料的預訓練能顯著提昇模型性能與泛化，推動視覺領域如 CLIP、DINO、MAE 等自監督與對比學習模型的發展。
激勵結構優化與效率研究：Transformer 架構雖強大，但計算複雜度為平方級，ViT 引發了大量研究致力於設計輕量化 Transformer、局部注意力以及混合結構，提升視覺任務的實用性和部署友好度。

總結而言，「An Image is Worth 16x16 Words」不僅是一篇架構創新的論文，更憑藉其深厚的實驗驗證與開闢的研究視野，成為視覺 Transformer 研究的里程碑。對具備基礎 AI 知識的讀者而言，深入理解 ViT 的架構設計、訓練策略與優缺點，可為自身在計算機視覺與深度學習領域的跨領域研究提供寶貴啟示。

論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

行有餘力則以學文

2026年5月5日星期二

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

一、研究背景與動機

二、核心方法與創新

三、主要實驗結果

四、對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年5月5日 星期二

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

一、研究背景與動機

二、核心方法與創新

三、主要實驗結果

四、對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年5月5日星期二