2026年3月29日 星期日

Score Matching with Missing Data

隨著機器學習與統計方法在各領域的廣泛應用,如何有效學習資料的概率分布成為研究焦點之一。在眾多無監督學習方法中,Score Matching(分數匹配)因其在能量基模型、擴散過程以及圖模型估計等場景的卓越表現而備受矚目。然而,現有的分數匹配方法大多假設訓練數據完整無缺,忽略了現實世界中資料缺失問題的普遍存在。ICML 2025 獲獎論文《Score Matching with Missing Data》(Givens, Liu, Reeve)針對這一挑戰,提出了具有高度靈活性且理論嚴謹的分數匹配新框架,可以在任意維度組合缺失的情況下有效學習概率分布,為缺失資料場景下的分布估計注入新動力。

一、研究背景與動機

資料缺失(Missing Data)長期以來是統計與機器學習領域的一大難題。許多現代資料來源如醫療紀錄、感測器數據、問卷調查等均不可避免地存在部分缺失。傳統解決策略多依賴數據插補(Imputation)或特定模型假設,但這些方法往往可能引入偏差或無法充分反映資料的內在結構。

分數匹配方法因其能夠直接估計資料分布的分數函數(score function,對數密度的梯度),避免了正規化常數的計算瓶頸,尤其適合能量基模型的學習。然而,標準分數匹配要求數據完整,且缺乏針對缺失資料的理論保障與實踐設計。論文正是在此背景下,提出將分數匹配擴展至缺失資料環境,且不需對缺失機制作嚴格假設,大幅拓展了分數匹配的實用範圍與理論基礎。

二、核心方法與創新

本論文的核心貢獻是設計了兩種針對缺失資料的分數匹配方法:

  1. 重要性加權(Importance Weighting, IW)方案:此方法利用已觀察到的資料分布作為權重,對分數匹配目標函數進行調整。透過重要性權重校正資料缺失導致的分布偏差,使學習過程仍可有效利用不完整資料。該方法在有限樣本及維度較低時表現尤為優越,論文中也嚴謹推導了其有限樣本估計誤差界,為方法提供理論保證。
  2. 變分推斷(Variational)方案:為了處理高維度及複雜模型場景,論文提出以變分框架結合缺失資料的後驗分布估計,並基於變分下界對分數匹配目標進行優化。此方法能靈活捕捉高維度資料的潛在結構,對於圖模型估計等複雜任務尤為有效。

此外,論文在算法設計上特別注意實用性與通用性,不強依賴資料缺失的機制假設(如缺失完全隨機),允許資料在任意坐標部分缺失,這在實際應用中十分具挑戰但關鍵。

三、主要實驗結果

論文針對兩種方案進行多組嚴謹實驗,涵蓋仿真數據與真實數據集,主要結果包括:

  • 有限域低維度小樣本場景:重要性加權方案表現卓越,顯示其在樣本稀少時能有效降低缺失帶來的估計偏差,且理論界限與實際表現高度吻合。
  • 高維度複雜圖模型估計:變分方案展現出強大的模型學習能力,能夠準確估計帶有部分缺失資料的圖結構,無論是在合成數據還是真實腦網絡資料上均優於現有競品方法。
  • 方法整體比較:兩方案互補性明顯,論文建議根據不同任務與資料特性選擇合適方法,並首次系統性地驗證了缺失資料分數匹配在多種場景的可行性與效益。

四、對 AI 領域的深遠影響

本論文提出的缺失資料分數匹配框架,從理論到實踐均展現出強大且靈活的能力,將對以下幾個方面產生持久影響:

  • 拓展能量基模型與擴散模型的應用:過去能量基模型因難以應對缺失資料在實務部署中受限,而本研究消除了這一障礙,使其可廣泛應用於醫療、自然語言處理、計算生物學等多領域。
  • 促進高維缺失資料分析技術發展:結合變分推斷的策略為處理高維數據缺失提供新思路,為未來圖深度生成模型、自監督學習等尖端領域的破局奠基。
  • 強化缺失資料處理理論基礎:有限樣本理論界限提供了新一輪對缺失資料中的評估與優化方法之信心保障,為後續相關方法設計與理論推廣提供典範範例。

總體而言,Givens等人所提出的「Score Matching with Missing Data」不僅填補了學術界對分數匹配與缺失資料結合的空白,也為實務上處理缺失數據的概率模型訓練帶來創新且可落地的新方法,對推動概率生成建模與無監督學習領域的技術演進有著重要里程碑意義。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

沒有留言:

張貼留言