行有餘力則以學文: Universal Few-shot Learning of Dense Prediction Tasks with Visual Token Matching

2026年3月28日星期六

Universal Few-shot Learning of Dense Prediction Tasks with Visual Token Matching

在電腦視覺領域中，「密集預測（Dense Prediction）」任務涵蓋了許多重要應用，如語義分割、深度估計、法線預測等，這些任務的共同特點是需要對影像中每一個像素進行分類或回歸，因而面臨高昂的精細標註成本。相比於影像分類等任務，密集預測的標註工時與難度顯著增加，這限制了模型在新任務與新語義上的快速遷移與應用。基於此背景，本論文由Kim 等人發表於 ICLR 2023，提出了一種名為 Visual Token Matching（簡稱 VTM）的新穎通用少量學習架構，專門針對任意密集預測任務進行少量樣本學習，且獲選為傑出論文（Outstanding Paper），顯示其在學術與實務上的突破性意義。

研究背景與動機

過去常見的少量學習（Few-shot Learning, FSL）主要聚焦於分類任務，近年也有不少研究探討少量標註下的語義分割，但多數方法設計依賴特定任務的架構或假設，難以泛化到其他密集預測任務。密集預測任務在標籤空間和輸出結構上變化極大，如語義分割標籤為類別分布，深度預測則為連續值，若要設計一套通用系統，在模型架構及訓練策略上均提出極大挑戰。

此外，多數模型需事先定義好任務類型與語義類別，當面對未知任務或語義標籤時，缺乏彈性調整能力。為降低依賴大量標註資料與架構改造，作者希望打造一個可跨任務、跨語義，透過極少數標註樣本即可完成新任務學習的通用系統。

核心方法與創新

本論文最關鍵的創新是提出利用非參數性的「視覺Token匹配（Visual Token Matching, VTM）」技術，將影像及其標註資料映射成多層級的Patch-level token嵌入，並以匹配算法直接推斷新樣本的像素標籤。其核心設計包含以下幾個面向：

Token級非參數匹配： 將影像切分為多個區塊(Patch)，並透過ViT（Vision Transformer）作為背骨網路抽取Hierarchical tokens。這些token在特徵空間中以相似度衡量方式被匹配，此過程不依賴傳統參數化分類器，而是類似於最近鄰檢索的非參數方法，能有效捕捉區域相似度，促成跨任務泛化。
多層次特徵融合： 傳統方法大多使用單一層級特徵，VTM於編碼器的多層級特徵上都實施token匹配，在多尺度與語義深度上進行融合，提升模型對目標細節與整體結構的捕捉能力。
少量的任務特定調制參數： 為兼顧泛化性與任務適應力，VTM引入極小量的可學習參數來調整匹配機制，這些參數用於模組匹配權重與資訊整合，使得模型既保留非參數的高靈活性，也能針對新任務進行細微調整。
架構設計與訓練策略： VTM採用Hierarchical Encoder-Decoder架構，以ViT作為底層特徵提取器，並在Decoder階段結合多層次匹配結果，最後生成細膩的預測輸出。訓練過程中，模型在多任務、多語義背景下學習通用表示，提升對未知任務的零樣本與少樣本泛化能力。

主要實驗結果

作者選擇Taskonomy資料集的一個具挑戰性的變型來驗證VTM的通用少量學習能力。Taskonomy包括多種密集預測任務，如深度估計、表面法線、助理分割等，且這些任務之間語義及標籤表徵大相逕庭，非常適合測試跨任務的泛化。

實驗重點與發現如下：

極少標註可達競爭性能： 在新任務上僅使用10張標註影像（約為全量標註的0.004%），VTM就能達到或接近完全監督模型的表現，顯示出強大的少量樣本學習能力。
靈活泛化多種密集預測任務： VTM不僅在語義分割上表現良好，也能有效應用於回歸任務，如深度與法線預測，證明其架構的任務無關性。
優於傳統少量學習基線： 相較於語義分割等領域常見的少量學習方法，VTM在多個評估指標上均取得更優的分數，並展現更穩健且一致的效能表現。
端到端效能與效率兼顧： 由於匹配過程非參數化，且任務特定參數只佔極少比例，訓練及調整效率高，實驗中展現出良好的計算效益。

對 AI 領域的深遠影響

本論文推翻了密集預測任務必須為每種任務各自訓練特定參數的傳統觀念，展示出非參數匹配機制在高維視覺特徵的泛化潛力。VTM 提供了一條通用且高效的少量學習新路徑，使得未來密集預測系統能夠在面對多樣且未知任務環境時，快速適應且顯著降低標籤成本。

此研究對於資源有限的應用場景尤其重要，如醫學影像分析中不同疾病型態的快速標註與預測、自動駕駛系統中稀有場景的即時學習等領域均具實際價值。此外，VTM的架構設計與思想亦有望啟發更多跨模態、多任務、多樣本下的通用少量學習方法，有助於加速人工智慧系統的普及與實用化。

總結來說，Kim等人提出的Visual Token Matching架構不僅在學術界展現出前所未有的效果與泛用性，也為產業界解決密集預測少標註難題帶來新機遇，堪稱是密集預測任務邁向少量學習通用化的重要里程碑。

論文資訊
📄 Universal Few-shot Learning of Dense Prediction Tasks with Visual Token Matching
👥 Kim, Kim, Cho, Luo, Hong
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2303.14969