行有餘力則以學文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

2026年4月11日星期六

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

研究背景與動機

Transformer 架構自從在自然語言處理（NLP）領域中問世後，迅速成為處理序列資料的標準方法，特別是BERT及GPT等模型大幅推動了語言理解與生成的進展。相比之下，計算機視覺（Computer Vision, CV）領域長期以來仍以卷積神經網絡（Convolutional Neural Networks, CNNs）為主流。儘管近幾年有些研究將注意力機制融入CNN，或是結合兩者架構，但多數仍維持傳統卷積的核心。這種依賴CNN的方式限制了Transformer在視覺任務上的純粹應用潛力。Dosovitskiy等人於2021年在ICLR發表的《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》（Vision Transformer，簡稱ViT）則提出挑戰既有框架，嘗試直接將純Transformer架構移植到圖像辨識領域。

研究動機核心在於：既然Transformer已被證明優異地處理序列資訊，那麼是否可以將圖像視為「序列」來直接輸入Transformer，而非先用CNN提取局部特徵？換句話說，將一張圖像切成若干小尺寸「patches」，分別視作Transformer的「詞彙（tokens）」，直接進行全局自注意力計算，藉此捕捉整張圖的關聯性，並有望克服CNN固有的感受野限制與步驟框架。

核心方法與創新

ViT的核心創新是將影像切割成固定大小的patch（如16x16像素），每個patch以平面攤平成一個一維向量，再經過線性嵌入（linear embedding）層轉換成Transformer可接受的維度。換句話說，一張圖像被拆解成一串可類比於文字的「tokens」，並輸入到標準的Transformer編碼器中進行全局自注意力運算。具體流程如下：

Patch分割與嵌入：將𝑯×𝑾×𝑪大小的影像分割成N個大小為𝑷×𝑷的patches (例如，224×224×3影像切成16×16大小patch，每個patch包含16×16×3=768維度像素)。對這些patch攤平成一維向量後，透過一個線性投影embedding layer轉換為令牌表示，維度通常設定為768或更高。
加入位置編碼：由於Transformer本身缺乏處理序列中元素位置的機制，ViT為每個patch位置加入可學習的位置編碼（positional embedding），讓模型能辨識patch在整張圖上的相對或絕對位置。
[CLS]通用分類標記：類似BERT架構，ViT在序列開頭加入專門的分類標記token，其最終輸出向量代表整張圖像，輸入後續分類層以預測圖像類別。
Transformer Encoder：ViT將轉成序列的影像tokens送入標準Transformer Encoder，包含多層多頭自注意力層及前饋層，通過全局自注意力機制捕捉跨patch的複雜關聯。
分類頭(Classification Head)：使用[CLS] token的最終輸出作為圖像特徵向量，接上全連接層或分類層，完成圖像識別任務。

整體架構無須卷積層，完全依賴Transformer建模圖像序列長距依賴關係。此方法的挑戰之一為Transformer缺少CNN的局部性偏置，需依靠大量資料與計算資源進行先行預訓練，方能學習有效的視覺表徵。

主要實驗結果

論文中，作者利用了多種大規模資料集進行預訓練與微調實驗，其中包括ImageNet-21k與JFT-300M等超大資料集。主要量化評估如下：

性能對比：以ViT為基礎，預訓練後在ImageNet1k分類任務中取得超越多數主流卷積網絡（如ResNet、EfficientNet）以及混合架構Transformer-CNN的準確率，同時在參數量與訓練複雜度上具有競爭力。
大尺度資料預訓練關鍵性：實驗顯示，ViT須借助龐大的預訓練資料才能支撑較好表現；在較小資料集（如CIFAR-100、VTAB等）微調時，ViT也能帶來優越泛化效果及性能提升。
有效性與計算效率：與當時最先進的卷積網絡相比，ViT在訓練時間及資源使用上呈現極具競爭力的表現，顯示純Transformer架構在視覺領域具有方法論和工程實務的雙重優勢。
結構簡化：ViT架構設計相當簡潔，無須複雜的卷積設計與調校，透過標準的Transformer Transformer Encoder 可靈活調整參數規模，方便延展與升級。

整體而言，ViT的實驗結果成功證明，Transformer完全可以不依賴CNN架構，單純使用「圖像patch序列」的表現方式，達成競爭甚至超越卷積網絡的視覺分類成效。

對 AI 領域的深遠影響

ViT論文從根本思考轉換視覺任務的模型設計方式，開創了以Transformer完全替代卷積架構的新方向。此研究帶來以下深遠影響：

視覺Transformer全盛時代的啟動：ViT的成功堪稱Transformer應用於視覺領域的里程碑，為後續一堆純Transformer架構（例如DeiT、Swin Transformer等）奠定堅實基礎，催生了Transformer在物體偵測、分割和影片理解等多種視覺任務的廣泛應用。
突破CNN架構框架的限制：傳統CNN受限於固定感受野與局部卷積的特性，難以有效捕捉影像中的遠距關係。ViT利用全局自注意力機制打破此限制，提升模型理解複雜結構的能力。
大規模預訓練的普適性強化：ViT促使社群重視預訓練數據規模對純Transformer視覺模型性能的關鍵影響，類似NLP領域中BERT與GPT的訓練策略。這鼓勵更多研究投入高效的預訓練方法及資料蒐集策略。
架構簡化與模組化優勢：ViT架構設計簡單且模組化，方便整合進多種 downstream 任務與多模態學習，推動視覺、語言與其他感測資料的融合研究。
促進跨模態與通用表示學習：Transformer在視覺上的成功，促成跨語言與視覺任務的統一模型研發，例如CLIP和DALL·E等模型在多模態理解與生成領域卓有成效，拉近自然語言處理與計算機視覺的距離。

綜上，ViT提出了嶄新的視覺建模策略，挑戰過去數年CNN主宰的格局，啟發學界與業界積極探討Transformer在影像理解的潛力，為未來深度學習模型架構的發展開闢了全新方向。

總結來說，ViT的成功在於：將圖像視為序列資料，利用Transformer強大的全局建模能力成功應用於視覺分類任務，並在大規模資料支援下達到極高的成效。這項創新不僅為視覺任務帶來新的技術選項，也深刻影響了AI整體的研究基調，成為現代視覺Transformer潮流的起點。

論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929