在近年來的人工智慧領域中,Transformer 架構已然成為自然語言處理(NLP)領域的主流標準,憑藉其強大的序列建模與自注意力機制,大幅提升了語言理解與生成的水準。然而,這種架構在電腦視覺(Computer Vision, CV)領域的應用卻尚未完全成熟,主因多數研究依賴卷積神經網路(Convolutional Neural Networks, CNN)作為主幹架構,還只是在局部環節中引入注意力機制。如何突破卷積網路的框架限制,讓 Transformer 成為純粹且強效的視覺模型,成為本篇論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT)」的核心動機。
研究背景與動機
卷積網路因其在圖像局部感受野、參數共享等特點,被廣泛認為是擷取視覺資訊的黃金架構,但其在擴展到非常大規模和異質任務時,仍會遇到設計複雜性與計算負擔的挑戰。Transformer 架構則基於自注意力機制,理論上能夠有效捕捉圖像中遠距離的長程依賴關係,並且結構通用,可輕鬆擴展。此篇論文由Google Brain團隊提出一種名為 Vision Transformer(ViT)的新穎架構,將 Transformer 直接應用於分割後的圖像區塊(patch)序列,無需卷積層即可達成優越影像分類表現。
核心方法與創新
ViT 的關鍵創新在於「圖像切片成序列」的概念:將輸入圖像切分成固定大小的非重疊區塊(例如 16x16 像素),將每個區塊視為「類似文字詞(word)」的基本輸入單位,然後將這些區塊展平並映射到高維特徵空間,形成序列向量輸入到標準的 Transformer 編碼器中。
整體流程可分為以下幾步:
- 將原始圖片切割成 N 個固定大小的 patch,每個 patch 經過 flatten(展平)操作後線性投影為一維向量,視為 Transformer 的輸入 token。
- 加入可學習的位置信息向量(positional embedding),因為 Transformer 本身不具備位置關係的先天認知。
- 輸入加入一個特殊的分類 token(class token),Transformer 編碼器透過多層的自注意力機制進行全域資訊整合。
- 最終通過全連接層將 class token 的輸出映射為分類結果。
這種設計的創新點是徹底跳脫卷積結構,借重要的是透過大規模預訓練(特別是在億級數的資料集 ImageNet-21k 或 JFT-300M 上),讓 Transformer 模型能有效學習圖像中的結構特徵和語義表示。
主要實驗結果
ViT 在多個圖像識別基準上驗證了其優異性能,包含:
- ImageNet-1k: ViT 在與多種先進的卷積網路,如 EfficientNet 和 ResNet 等比較中,展示出媲美甚至更優的準確率。
- 中小型數據集遷移學習:利用大規模預訓練後,ViT 能在 CIFAR-100、VTAB 等少量樣本數據集上快速遷移學習,表現超越同樣條件下的卷積網路。
- 計算效率與模型規模:ViT 由於架構簡潔,在相較於等效效能的卷積網路時,訓練速度更快,且在推論時可進行更有效的模型縮放與調整。
論文中亦對比了不同 patch 大小、Transformer 層數、隱藏層維度等結構超參數,結果指出,較細的 patch(如 16x16)配合足夠深度 Transformer 能保持更好識別能力,且超大模型(如 ViT-Large)在海量資料下表現最為搶眼。
對 AI 領域的深遠影響
ViT 的成功開啟了一系列關於如何讓 Transformer 架構純粹且有效地應用於視覺任務的研究潮流,其影響包括:
- 架構路徑變革:以往視覺模型的設計深受 CNN 思想影響,ViT 證明即使摒棄卷積操作,透過自注意力機制即可成功建模複雜的視覺特徵。
- 大規模預訓練的重要性:ViT 強調在巨量資料集上的預訓練是避免過擬合、達成泛化的關鍵,推動視覺模型訓練資料規模的擴大化。
- 通用特徵表示:Transformer 的自注意力能力使得 ViT 能捕捉圖像的全局上下文資訊,有助於跨任務(classification、檢測、分割)遷移學習和多模態融合。
- 後續研究的基石:ViT 成為眾多變體(如 DeiT、Swin Transformer、CvT 等)的基礎,持續帶動視覺 Transformer 的架構優化、效能提升與應用擴展。
總結來說,ViT 論文以其創新且簡潔的思路,成功將 NLP 領域的 Transformer 引進電腦視覺,克服了傳統 CNN 架構的框架束縛,實現了極具競爭力的圖像分類效果,對整個視覺領域架構設計及訓練範式帶來革命性啟發,也逐漸改變未來 AI 視覺模型的發展方向。
論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:
張貼留言