隨著 Transformer 架構在自然語言處理(NLP)領域的成功,研究者們嘗試將 Transformer 引入計算機視覺(Computer Vision, CV)任務,期望能突破傳統卷積神經網路(Convolutional Neural Networks, CNN)在視覺訊息建模上的限制。Dosovitskiy 等人於 2021 年 ICLR 發表的論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》提出了「Vision Transformer(ViT)」架構,以純 Transformer 模型取代傳統 CNN,直接處理圖像的線性展開序列,展現了令人驚豔的性能,並獲得當年 Outstanding Paper 獎項。本篇簡介將深入剖析 ViT 的研究背景、核心方法、實驗成果及其對 AI 領域的影響。
一、研究背景與動機
過去十年,CNN 因其在局部感受野、權重共享及平移不變性上的優勢,成為視覺任務的主流架構。然而,CNN 在捕捉長距離依賴(long-range dependencies)與全局特徵表徵方面仍有一定限制。與此同時,Transformer 架構憑藉自注意力機制(self-attention),能靈活地捕捉序列數據中的長距離依賴關係,已在 NLP 領域取得顯著成功。
前期視覺模型多採用 CNN-Transformer 混合結構,或將注意力機制加插入 CNN 之中,期望結合二者之長。但這也意味著對 CNN 的依賴仍然存在。該論文團隊質疑:是否有可能完全拋棄 CNN,僅以 Transformer 架構,透過合適的圖像前處理與序列結構,達成甚至超越 CNN 的性能?這成為 ViT 誕生的核心驅動力。
二、核心方法與創新
ViT 的主要創新在於將圖像重新定義為一個「詞彙」序列。具體而言,它將一張輸入圖像拆分成固定大小的非重疊補丁(patch),以 16×16 像素大小為最常用設定。每個補丁透過線性投影被編碼成一個向量,形成類似 NLP 中「詞」的序列輸入(patch embeddings)。這些補丁序列的長度約為影像大小除以補丁大小平方,例如對 224×224 的圖像,會產生 14×14=196 個 patch tokens。
在拼接了位置編碼(positional encoding)後,整個序列送入標準的 Transformer 編碼器(Transformer encoder)結構,核心是多頭自注意力(Multi-head Self-Attention)與前饋神經網路(Feed-Forward Network)層堆疊。模型頂端引入一個特殊的分類 token,該 token 經 Transformer 編碼後的表示用於最終圖像分類。
此設計擺脫了 CNN 的卷積與池化層,全靠純自注意力計算序列間所有元素的相關性,從而自動學習圖像的全局結構和特徵。ViT 也展現了 Transformer 架構在視覺任務的可擴展性與優越性。
此外,ViT 強調大規模預訓練數據的重要性。研究者在 ImageNet-21k(約 1400 萬張圖)和 JFT-300M(Google 內部擁有約 3 億標註圖像的資料庫)上進行漫長預訓練,讓模型學得更通用且具豐富視覺語義知識。隨後,透過微調(fine-tuning)於中小型標準資料集(如 ImageNet、CIFAR-100 等),呈現出優異精度與泛化能力。
三、主要實驗結果
在實驗部分,ViT 以多種不同模型大小(如 Base、Large、Huge)和不同輸入圖像尺寸(224×224、384×384)進行檢驗。核心發現包含:
- 優越準確率:在 ImageNet 上,ViT Large 模型(配合高解析度輸入)達到 88.55% 的頂峰準確率,超越當時多數先進 CNN 架構(如 ResNet、EfficientNet-B7)。
- 訓練效率高:相較於大型 CNN,ViT 在大規模資料預訓練下,訓練所需的運算量較少,表明其架構更為高效。
- 泛化能力強:在多種多樣化的視覺任務和資料集(包括 VTAB 多任務基準)均有優秀表現,展露出強大的跨任務遷移能力。
- 缺點揭示:若缺乏大規模預訓練資料,ViT 裝載樣本較少的資料時性能不如 CNN,顯示出對數據規模敏感,需要透過更好的正則化和數據增強解決此議題。
四、對 AI 領域的深遠影響
ViT 論文的發表對 AI 研究社群產生了多方面的深遠衝擊:
- 推翻 CNN 統治地位:ViT 證明了在充足資料與計算資源下,純 Transformer 架構能夠勝任主要的圖像辨識任務,開啟了視覺模型架構創新的新局。
- 促進視覺-語言統一模型研究:ViT 為融合多模態學習提供了基礎架構,後續眾多研究將 Transformer 延伸應用於跨模態如視覺問答(VQA)、影像描述(Image Captioning)等任務。
- 推廣大型預訓練思想:ViT 展示大型資料的預訓練能顯著提昇模型性能與泛化,推動視覺領域如 CLIP、DINO、MAE 等自監督與對比學習模型的發展。
- 激勵結構優化與效率研究:Transformer 架構雖強大,但計算複雜度為平方級,ViT 引發了大量研究致力於設計輕量化 Transformer、局部注意力以及混合結構,提升視覺任務的實用性和部署友好度。
總結而言,「An Image is Worth 16x16 Words」不僅是一篇架構創新的論文,更憑藉其深厚的實驗驗證與開闢的研究視野,成為視覺 Transformer 研究的里程碑。對具備基礎 AI 知識的讀者而言,深入理解 ViT 的架構設計、訓練策略與優缺點,可為自身在計算機視覺與深度學習領域的跨領域研究提供寶貴啟示。
論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:
張貼留言