行有餘力則以學文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)

2026年3月28日星期六

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) - 深度解析

在近年來的人工智慧領域中，Transformer 架構已然成為自然語言處理（NLP）領域的主流標準，憑藉其強大的序列建模與自注意力機制，大幅提升了語言理解與生成的水準。然而，這種架構在電腦視覺（Computer Vision, CV）領域的應用卻尚未完全成熟，主因多數研究依賴卷積神經網路（Convolutional Neural Networks, CNN）作為主幹架構，還只是在局部環節中引入注意力機制。如何突破卷積網路的框架限制，讓 Transformer 成為純粹且強效的視覺模型，成為本篇論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale（ViT）」的核心動機。

研究背景與動機

卷積網路因其在圖像局部感受野、參數共享等特點，被廣泛認為是擷取視覺資訊的黃金架構，但其在擴展到非常大規模和異質任務時，仍會遇到設計複雜性與計算負擔的挑戰。Transformer 架構則基於自注意力機制，理論上能夠有效捕捉圖像中遠距離的長程依賴關係，並且結構通用，可輕鬆擴展。此篇論文由Google Brain團隊提出一種名為 Vision Transformer（ViT）的新穎架構，將 Transformer 直接應用於分割後的圖像區塊（patch）序列，無需卷積層即可達成優越影像分類表現。

核心方法與創新

ViT 的關鍵創新在於「圖像切片成序列」的概念：將輸入圖像切分成固定大小的非重疊區塊（例如 16x16 像素），將每個區塊視為「類似文字詞（word）」的基本輸入單位，然後將這些區塊展平並映射到高維特徵空間，形成序列向量輸入到標準的 Transformer 編碼器中。

整體流程可分為以下幾步：

將原始圖片切割成 N 個固定大小的 patch，每個 patch 經過 flatten（展平）操作後線性投影為一維向量，視為 Transformer 的輸入 token。
加入可學習的位置信息向量（positional embedding），因為 Transformer 本身不具備位置關係的先天認知。
輸入加入一個特殊的分類 token（class token），Transformer 編碼器透過多層的自注意力機制進行全域資訊整合。
最終通過全連接層將 class token 的輸出映射為分類結果。

這種設計的創新點是徹底跳脫卷積結構，借重要的是透過大規模預訓練（特別是在億級數的資料集 ImageNet-21k 或 JFT-300M 上），讓 Transformer 模型能有效學習圖像中的結構特徵和語義表示。

主要實驗結果

ViT 在多個圖像識別基準上驗證了其優異性能，包含：

ImageNet-1k: ViT 在與多種先進的卷積網路，如 EfficientNet 和 ResNet 等比較中，展示出媲美甚至更優的準確率。
中小型數據集遷移學習：利用大規模預訓練後，ViT 能在 CIFAR-100、VTAB 等少量樣本數據集上快速遷移學習，表現超越同樣條件下的卷積網路。
計算效率與模型規模：ViT 由於架構簡潔，在相較於等效效能的卷積網路時，訓練速度更快，且在推論時可進行更有效的模型縮放與調整。

論文中亦對比了不同 patch 大小、Transformer 層數、隱藏層維度等結構超參數，結果指出，較細的 patch（如 16x16）配合足夠深度 Transformer 能保持更好識別能力，且超大模型（如 ViT-Large）在海量資料下表現最為搶眼。

對 AI 領域的深遠影響

ViT 的成功開啟了一系列關於如何讓 Transformer 架構純粹且有效地應用於視覺任務的研究潮流，其影響包括：

架構路徑變革：以往視覺模型的設計深受 CNN 思想影響，ViT 證明即使摒棄卷積操作，透過自注意力機制即可成功建模複雜的視覺特徵。
大規模預訓練的重要性：ViT 強調在巨量資料集上的預訓練是避免過擬合、達成泛化的關鍵，推動視覺模型訓練資料規模的擴大化。
通用特徵表示：Transformer 的自注意力能力使得 ViT 能捕捉圖像的全局上下文資訊，有助於跨任務（classification、檢測、分割）遷移學習和多模態融合。
後續研究的基石：ViT 成為眾多變體（如 DeiT、Swin Transformer、CvT 等）的基礎，持續帶動視覺 Transformer 的架構優化、效能提升與應用擴展。

總結來說，ViT 論文以其創新且簡潔的思路，成功將 NLP 領域的 Transformer 引進電腦視覺，克服了傳統 CNN 架構的框架束縛，實現了極具競爭力的圖像分類效果，對整個視覺領域架構設計及訓練範式帶來革命性啟發，也逐漸改變未來 AI 視覺模型的發展方向。

論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929