研究背景與動機
Transformer 架構自從在自然語言處理(NLP)領域中問世後,迅速成為處理序列資料的標準方法,特別是BERT及GPT等模型大幅推動了語言理解與生成的進展。相比之下,計算機視覺(Computer Vision, CV)領域長期以來仍以卷積神經網絡(Convolutional Neural Networks, CNNs)為主流。儘管近幾年有些研究將注意力機制融入CNN,或是結合兩者架構,但多數仍維持傳統卷積的核心。這種依賴CNN的方式限制了Transformer在視覺任務上的純粹應用潛力。Dosovitskiy等人於2021年在ICLR發表的《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》(Vision Transformer,簡稱ViT)則提出挑戰既有框架,嘗試直接將純Transformer架構移植到圖像辨識領域。
研究動機核心在於:既然Transformer已被證明優異地處理序列資訊,那麼是否可以將圖像視為「序列」來直接輸入Transformer,而非先用CNN提取局部特徵?換句話說,將一張圖像切成若干小尺寸「patches」,分別視作Transformer的「詞彙(tokens)」,直接進行全局自注意力計算,藉此捕捉整張圖的關聯性,並有望克服CNN固有的感受野限制與步驟框架。
核心方法與創新
ViT的核心創新是將影像切割成固定大小的patch(如16x16像素),每個patch以平面攤平成一個一維向量,再經過線性嵌入(linear embedding)層轉換成Transformer可接受的維度。換句話說,一張圖像被拆解成一串可類比於文字的「tokens」,並輸入到標準的Transformer編碼器中進行全局自注意力運算。具體流程如下:
- Patch分割與嵌入:將𝑯×𝑾×𝑪大小的影像分割成N個大小為𝑷×𝑷的patches (例如,224×224×3影像切成16×16大小patch,每個patch包含16×16×3=768維度像素)。對這些patch攤平成一維向量後,透過一個線性投影embedding layer轉換為令牌表示,維度通常設定為768或更高。
- 加入位置編碼:由於Transformer本身缺乏處理序列中元素位置的機制,ViT為每個patch位置加入可學習的位置編碼(positional embedding),讓模型能辨識patch在整張圖上的相對或絕對位置。
- [CLS]通用分類標記:類似BERT架構,ViT在序列開頭加入專門的分類標記token,其最終輸出向量代表整張圖像,輸入後續分類層以預測圖像類別。
- Transformer Encoder:ViT將轉成序列的影像tokens送入標準Transformer Encoder,包含多層多頭自注意力層及前饋層,通過全局自注意力機制捕捉跨patch的複雜關聯。
- 分類頭(Classification Head):使用[CLS] token的最終輸出作為圖像特徵向量,接上全連接層或分類層,完成圖像識別任務。
整體架構無須卷積層,完全依賴Transformer建模圖像序列長距依賴關係。此方法的挑戰之一為Transformer缺少CNN的局部性偏置,需依靠大量資料與計算資源進行先行預訓練,方能學習有效的視覺表徵。
主要實驗結果
論文中,作者利用了多種大規模資料集進行預訓練與微調實驗,其中包括ImageNet-21k與JFT-300M等超大資料集。主要量化評估如下:
- 性能對比:以ViT為基礎,預訓練後在ImageNet1k分類任務中取得超越多數主流卷積網絡(如ResNet、EfficientNet)以及混合架構Transformer-CNN的準確率,同時在參數量與訓練複雜度上具有競爭力。
- 大尺度資料預訓練關鍵性:實驗顯示,ViT須借助龐大的預訓練資料才能支撑較好表現;在較小資料集(如CIFAR-100、VTAB等)微調時,ViT也能帶來優越泛化效果及性能提升。
- 有效性與計算效率:與當時最先進的卷積網絡相比,ViT在訓練時間及資源使用上呈現極具競爭力的表現,顯示純Transformer架構在視覺領域具有方法論和工程實務的雙重優勢。
- 結構簡化:ViT架構設計相當簡潔,無須複雜的卷積設計與調校,透過標準的Transformer Transformer Encoder 可靈活調整參數規模,方便延展與升級。
整體而言,ViT的實驗結果成功證明,Transformer完全可以不依賴CNN架構,單純使用「圖像patch序列」的表現方式,達成競爭甚至超越卷積網絡的視覺分類成效。
對 AI 領域的深遠影響
ViT論文從根本思考轉換視覺任務的模型設計方式,開創了以Transformer完全替代卷積架構的新方向。此研究帶來以下深遠影響:
- 視覺Transformer全盛時代的啟動:ViT的成功堪稱Transformer應用於視覺領域的里程碑,為後續一堆純Transformer架構(例如DeiT、Swin Transformer等)奠定堅實基礎,催生了Transformer在物體偵測、分割和影片理解等多種視覺任務的廣泛應用。
- 突破CNN架構框架的限制:傳統CNN受限於固定感受野與局部卷積的特性,難以有效捕捉影像中的遠距關係。ViT利用全局自注意力機制打破此限制,提升模型理解複雜結構的能力。
- 大規模預訓練的普適性強化:ViT促使社群重視預訓練數據規模對純Transformer視覺模型性能的關鍵影響,類似NLP領域中BERT與GPT的訓練策略。這鼓勵更多研究投入高效的預訓練方法及資料蒐集策略。
- 架構簡化與模組化優勢:ViT架構設計簡單且模組化,方便整合進多種 downstream 任務與多模態學習,推動視覺、語言與其他感測資料的融合研究。
- 促進跨模態與通用表示學習:Transformer在視覺上的成功,促成跨語言與視覺任務的統一模型研發,例如CLIP和DALL·E等模型在多模態理解與生成領域卓有成效,拉近自然語言處理與計算機視覺的距離。
綜上,ViT提出了嶄新的視覺建模策略,挑戰過去數年CNN主宰的格局,啟發學界與業界積極探討Transformer在影像理解的潛力,為未來深度學習模型架構的發展開闢了全新方向。
總結來說,ViT的成功在於:將圖像視為序列資料,利用Transformer強大的全局建模能力成功應用於視覺分類任務,並在大規模資料支援下達到極高的成效。這項創新不僅為視覺任務帶來新的技術選項,也深刻影響了AI整體的研究基調,成為現代視覺Transformer潮流的起點。
論文資訊
📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)
👥 Dosovitskiy, Beyer, Kolesnikov, Weissenborn et al.
🏆 ICLR 2021 · Outstanding Paper
🔗 arxiv.org/abs/2010.11929

沒有留言:
張貼留言