2026年4月17日 星期五

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 深度解析

在過去十年中,深度學習技術在圖像識別領域取得了極大的突破,尤其是以卷積神經網路(Convolutional Neural Networks, CNNs)為主流架構。CNN 由於其對局部感受野的設計及參數共享特性,非常適合處理具有拓撲結構的圖像數據,並在ImageNet等大型數據集上創造了多項里程碑成就。然而,隨著 Transformer 在自然語言處理(NLP)領域的爆發式成功,研究界開始嘗試將這種基於注意力機制的架構應用於一次性序列處理的圖像任務。該篇由Dosovitskiy等人於2021年在 ICLR 發表的傑出論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》(簡稱ViT)即為此方向的開創性作品。

研究背景與動機

Transformer 架構最初由 Vaswani 等人於2017年提出,藉由多頭自注意力機制( Multi-Head Self-Attention ),有效捕捉序列元素間全局依賴關係,廣泛推動NLP多項任務的性能提升。相比之下,圖像的空間結構與像素鄰近性使 CNN 在圖像領域長期佔據主導地位。但CNN 架構仍面臨以下限制:

  • 卷積層在捕捉長距離關係時表現有限,捕捉全局信息需多層堆疊或額外機制。
  • 架構對特定層設計(如池化層、卷積核大小等)較為敏感,調整彈性有限。
  • 在大規模數據及高維度情境下,訓練與部署計算成本高昂。

考慮到Transformer在NLP對序列數據的優越表現,論文作者提出重要問題:「是否有可能摒棄傳統CNN,對圖像直接應用純Transformer架構?」同時,隨著數據量與計算能力的提升,此方法能否在規模化訓練後達到或超越CNN的性能,是本研究的核心動機。

核心方法與技術創新

ViT提出了一種非常直接且創新的方案:將圖像視為一串固定大小的「補丁序列」,然後將這些補丁像「詞彙」一樣輸入Transformer。具體步驟與亮點如下:

  1. 圖像分割成固定大小補丁:輸入圖像(例如224×224像素)被切分成大小為16×16的非重疊補丁,每個補丁被展平成一維向量,形成一組詞彙序列。整張圖像因此轉換為一串「16x16字」的視覺詞匯。
  2. 線性嵌入映射:每個補丁經由線性層映射到高維特徵空間(embedding space),類似NLP中詞嵌入的方式。
  3. 位置編碼:因Transformer缺乏卷積的位置信息保留機制,ViT加入學習式位置向量(Position Embeddings)以維持補丁間的空間結構。
  4. 純Transformer架構:ViT完全捨棄CNN,用標準Transformer Encoder堆疊多層自注意力與前饋神經網路層處理圖像序列,透過多頭注意力捕捉全局依賴關係。
  5. 分類頭設計:在序列之首插入一個特殊的分類標記(class token),經Transformer抽取全局特徵後,該token被用於最終的圖像分類判斷。

此方法核心創新在於「直接」將圖像視為序列,完全利用Transformer的計算架構,突破以往對卷積操作的依賴。此外,論文詳細探討了ViT在不同模型大小、訓練數據規模,以及位置編碼設計上的影響,對模型穩定性與性能提升提供了系統性的分析。

主要實驗結果

ViT在多項公認的圖像識別基準上展現出尖端水準的效果,尤其在大規模預訓練下,模型成績顯著超越同等規模的CNN模型,並且訓練效率更高。具體成果如下:

  • ImageNet分類任務:在超大數據集JFT(約3.3億張圖像)上進行預訓練後,ViT在ImageNet驗證集上達到優於ResNet等頂級CNN架構的準確率,展現出極強的泛化能力。
  • 中小規模數據集遷移能力:在CIFAR-100、VTAB等較小數據集上,經過微調的ViT仍維持出色表現,證明其優異的遷移學習能力。
  • 計算成本與效率:相較於ResNet等高性能CNN,ViT在訓練過程中所需的計算資源更少,主要因為Transformer架構更適合並行計算,且避免了卷積核參數的冗餘。

論文中亦有分析顯示,ViT性能與預訓練資料規模關係密切,缺乏大規模預訓練時表現不及CNN,這揭示了Transformer在視覺任務中對數據豐富度的敏感性。

對 AI 領域的深遠影響

ViT的提出具有里程碑式意義,複寫了圖像識別領域對架構選擇的固有認知,帶來以下重要影響:

  1. 擴展Transformer架構的普適性:ViT證明了Transformer架構不僅僅適用於NLP,還可以在視覺領域取代傳統的CNN,尤其在大數據條件下達到優越效果,推動跨模態架構融合與統一。
  2. 促進視覺基礎模型發展:ViT為後續如Swin Transformer、DeiT及Multimodal Transformer等模型提供了理論基礎與架構參考,是推動視覺大模型熱門化的重要推手。
  3. 改變訓練策略與資源分配:由於Transformer更依賴大規模數據及專用預訓練策略,ViT引領視覺領域重視資料集構建與高效預訓練方法的研發,以及結合自監督學習與多任務訓練的嘗試。
  4. 啟發後續多尺度與混合模型設計:ViT雖成功,但其在局部細節表現上尚有不足,促使研究者進一步結合卷積、金字塔結構或改良注意力機制,催生眾多創新架構,豐富視覺神經網路生態。

綜觀而言,《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》不只是一次架構的革新,更是引發整個計算機視覺與深度學習研究方向轉變的重要推手。隨著硬體能力與數據規模的提升,ViT代表了通用神經網路架構邁入新紀元的關鍵里程碑,也為未來多模態、跨領域的AI系統奠定堅實基礎。

對於有志於深入AI模型架構的工程師與研究生而言,深入理解ViT的設計哲學、預訓練策略與其在不同數據規模上的表現差異,將有助於掌握現今及未來該領域的核心技術趨勢。


論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:

張貼留言