2026年6月23日 星期二

Score Matching with Missing Data

隨著機器學習與統計建模需求愈發多樣化,對於概率分布的估計技術也不斷推陳出新。其中,Score Matching 作為一種強大的無監督學習方法,藉由最小化數據分布的分數函數(score function)差異,成功在擴散過程(diffusion processes)、能量基模型(energy-based models)、以及圖形模型估計等多個領域建立基礎。然而,現有的 Score Matching 方法普遍假設數據是完整可觀測的,面對遺失數據(missing data)問題時的理論與實踐研究卻極為缺乏。本篇由 Givens, Liu, Reeve 三位學者於 ICML 2025 發表並榮獲「Outstanding Paper」殊榮的論文《Score Matching with Missing Data》,正是針對這個關鍵但被忽略的問題提出一套系統且高效的解決方案。

研究背景與動機

在真實世界應用中,數據遺失是不可避免的挑戰,可能因設備故障、數據收集過程中的限制或隱私考量導致部分特徵值缺失。傳統處理方法如刪除遺失樣本或以平均值填補,會削弱模型效能及統計推論的準確性。近年來,儘管針對含缺失值的監督式學習有眾多研究,但在無監督學習、特別是分布估計方面,理論基礎薄弱。Score Matching 在不需估算正規化常數的情況下估計分布特性,理應十分適合應用於遺失數據,但尚無直接可用的拓展方法。

因此,本文的核心動機在於:如何將 Score Matching 理論與方法擴展到含有任意部份坐標缺失的數據結構中,同時保持靈活性以支援多種場景,並能針對不同的維度與樣本量條件提供效能保證。

核心方法與創新

論文提出了兩種針對缺失數據的 Score Matching 變體:

  1. 重要性加權(Importance Weighting, IW)方法:此方法利用完整數據空間和缺失機制之間的關係透過重要性權重進行調整。簡單來說,對每個有遺失坐標的樣本,計算其潛在完整數據的生成機率比例作為權重,將這些權重引入傳統 Score Matching 的目標函數中。這種做法在具有限定域(finite domain)、維度相對較低且樣本數不足時表現尤其優秀。論文中還給出了\textbf{有限樣本界(finite sample bounds)}的嚴謹定理,理論證明了該方法的估計誤差隨樣本數增加而收斂,保證了算法穩定性。
  2. 變分(Variational)方法:變分方法從概率模型建構角度出發,設計了一個可優化的變分下界(variational lower bound),透過引入變分分布(variational distribution)以替代無法觀測的缺失坐標。透過變分推斷優化 Score Matching 的分數函數逼近,這使得方法更適合高維數據和複雜模型,例如結構化的圖形模型。實驗中展現此方法在高維度且結構複雜的估計任務中優於其他方法,具高度實用價值。

除此之外,作者細緻探討了這兩種方法的適用條件與優缺點,並提出混合使用的策略,依據具體問題選擇最合適的算法框架。

主要實驗結果

論文中設計了多組模擬及實際數據的實驗,驗證提出方法的優越性:

  • 模擬實驗:作者利用人造圖形模型和能量基模型產生缺失數據情境,測試兩種方法在不同維度、缺失率及樣本數下的性能。結果顯示 IW 方法在樣本量較少且維度中低時保持良好表現,而變分方法在樣本充足且高維環境下表現最佳。
  • 真實數據應用:作者在基因調控網路結構估計任務中引入缺失機制,並利用提出的方法修正模型估計。實驗結果證實,他們的方法能有效處理真實環境下的缺失數據,提高網路結構識別的準確性,展現了良好的泛化能力與穩健性。
  • 比較基準:論文還將兩種方法與現有處理缺失數據的統計和機器學習方法(如 EM 算法、插補技術)進行比較,發現 Score Matching 的改良版本在特定條件下擁有更快的收斂性和更低的偏差,特別適合能源型模型與擴散過程等復雜分布的估計。

對 AI 領域的深遠影響

此研究為無監督學習領域中的分布估計帶來突破性的貢獻,從學術到實務應用皆具有深遠影響:

  • 理論層面:首次系統性地擴展了 Score Matching 方法以處理缺失數據問題,並給出了保守且具解釋力的理論界限,此成果豐富了概率模型估計的工具箱,推動統計機器學習在不完全數據上的理論發展。
  • 方法多元化:提出的 IW 與變分兩大類演算法為不同場景提供可選擇性,使得 Score Matching 技術應用範圍大幅拓展,從低維小樣本任務到高維結構化模型均可靈活使用。
  • 實務應用潛力:現實生活中許多領域(如醫療數據分析、基因組學、計算生物學及社會網路分析)經常面對缺失數據。本文方法提供了穩健估計技術,促進這些領域中基於能量模型和圖形模型的複雜系統分析。
  • 促進後續研究:此論文設定了處理缺失數據的 Score Matching 研究新方向,後續學者可在此基礎上探討更廣泛的缺失機制、多模態資料結合、及動態缺失模式下的學習策略等。

總結來說,《Score Matching with Missing Data》不單是 Score Matching 技術的一大進化,也為面對實務中最常見卻艱難的缺失數據問題,提供了理論完備且算法實用的雙軌解決方案。對於工程師與研究生而言,深入理解此論文的方法論與實驗驗證,不僅能掌握前沿無監督分布學習技巧,還能開啟基於部分觀測數據的概率建模新視野。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

沒有留言:

張貼留言