2026年5月24日 星期日

An Image is Worth 16x16 Words:Transformers 在大規模影像辨識中的突破

隨著深度學習的蓬勃發展,卷積神經網路(Convolutional Neural Networks,CNN)長期以來一直是視覺任務的標準架構,尤其在影像分類、物件偵測等方面表現卓越。然而,近年來在自然語言處理(Natural Language Processing,NLP)領域崛起的 Transformer 架構,能夠有效捕捉全局資訊並解決長距離依賴問題,引發了學界探索其在電腦視覺中應用的熱潮。Dosovitskiy 等人在 2021 年 ICLR 發表的《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(簡稱 ViT)》突破了過去視覺領域對 CNN 依賴的框架,提出了一種將 Transformer 從頭應用於影像分類的新思路,並獲得傑出論文獎殊榮。

研究背景與動機

Transformer 架構自 2017 年提出後,憑藉自注意力機制(self-attention)在序列建模中的強大能力,迅速成為 NLP 領域的主力。然而,將 Transformer 直接用於影像的挑戰在於影像數據固有的高維與結構特性:不同於文字或語音序列的明確線性結構,影像具有二維空間的局部關聯與層次結構,且像素數量遠大於字詞數量,直接套用 Transformer 會導致計算與記憶體成本急劇上升。傳統方案大多嘗試結合 CNN 與注意力機制,或僅用 Transformer 替代部分 CNN 層,卻仍無法徹底擺脫 CNN。

Motivated by Transformer 在 NLP 的成功,作者提出是否能將一幅影像切割成固定大小的「小塊」(patches),視為序列中的「詞」輸入 Transformer,藉此避免複雜的卷積設計,並利用 Transformer 強大的建模能力直接捕捉影像全局與局部特徵,實現純粹以 Transformer 為基礎的影像辨識系統。

核心方法與創新

作者提出的 Vision Transformer(ViT)架構最具創新處在於將影像「切分」成固定大小的 16x16 像素 patch,並將每個 patch 平坦化後投影到固定維度的向量空間,作為 Transformer 的輸入序列。具體流程可分為:

  • Patch Embedding:將輸入影像(如 224x224x3)劃分為 16x16 大小的小塊,計算數量約為 (224/16)^2=196 個,每個 patch 經過線性映射轉換為一維向量。
  • Position Embedding:為保留空間位置信息,ViT 為每個 patch 加入可學習的位置編碼,彌補 Transformer 不具備內建空間結構的缺陷。
  • Transformer Encoder:核心為多層標準 Transformer 編碼器,利用多頭自注意力機制捕捉 patch 之間的相關性,替代 CNN 的層級特徵抽取。
  • 分類標記:引入一個專門用於最後分類的學習向量(CLS token),類似 BERT 的設計,經過 Transformer 後以此向量表達整個影像的抽象特徵,並接上 MLP 預測類別。

ViT 不採用傳統卷積核或池化層,而是完全依賴 Transformer 的架構。此設計簡化了模型結構,同時利用大規模資料和強大計算資源,可充分挖掘 Transformer 架構的表現潛力。

主要實驗結果

為證明 ViT 的有效性,作者在多個公開影像分類資料集上進行實驗,包括 ImageNet、CIFAR-100 以及 VTAB(Visual Task Adaptation Benchmark)。關鍵發現包括:

  • ViT 在大規模資料集(例如 ImageNet-21k 或 JFT-300M)上預訓練,能在下游較小的資料集上精準微調,模型表現超越同時期各種尖端卷積架構,例如 ResNet 和 ResNeXt。
  • 相比等量參數的 CNN,ViT 所需的訓練時間和計算資源更少,尤其在大型資料集上展現出較佳的資料效率,使模型更容易擴展和部署。
  • 在不同任務中普遍適用,ViT 展現良好的泛化能力,說明純 Transformer 架構不僅能取代 CNN,甚至可望成為視覺任務的新主流。

對 AI 領域的深遠影響

ViT 的成功不僅技術層面上是對視覺模型架構的一大突破,更引領了整個計算機視覺領域向 Transformer 架構的轉向。其意義體現在:

  1. 架構範式轉移:打破了長期以來「CNN 是影像辨識標配」的慣性思維,證明純 Transformer 架構具備足夠能力捕捉影像中的結構與語意,重塑視覺任務建模基礎。
  2. 跨領域方法融合:ViT 將 NLP 領域中已獲成功的 Transformer 帶入視覺領域,促進多媒體模態間的技術共通與融合,有助於多模態學習、多任務學習等未來發展。
  3. 推動大規模預訓練模型:ViT 強調數據規模與預訓練的重要性,啟發視覺社群重視預訓練策略、無監督學習與自監督學習,類似 NLP 的 BERT 與 GPT 風潮正逐步在視覺領域落地。
  4. 激發後續研究熱潮:ViT 發表後,出現眾多改良版本如 DeiT、Swin Transformer 等,進一步優化效率及性能,證明其方法論具持續價值。

總體而言,《An Image is Worth 16x16 Words》一文不只在技術上創造了突破,更重新定義了影像識別模型的設計思路,啟動了視覺 Transformer 時代。作為基礎 AI 架構的革新,ViT 為未來多模態 AI、跨領域學習,以及自監督方法的發展奠定了重要基石,具有深遠的學術與實務意義。


論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:

張貼留言