在機器學習與統計推斷領域中,分布估計(distribution estimation)是核心課題之一,對於理解資料的潛在結構與機率特性有重要意義。尤其是高維資料或複雜模型中,傳統的最大似然估計(MLE)往往因計算困難而受到限制。Score Matching(SM)技術由Hyvärinen於2005年提出,作為一種替代最大似然方法的有效工具,無需顯式計算歸一化常數即可進行未歸一化模型(unnormalized model)的參數估計。此技術在能量基模型(Energy-based Models)、統計物理、圖模型的訓練中扮演重要角色。然而,Score Matching的典型假設是資料完整可得,一旦遇到「缺失資料」(Missing Data),如部分欄位缺失、感測器故障或隱私保護的遮蔽,傳統方法往往失效,或需酷似(approximate)複雜的重建機制,造成估計效能退化。
ICML 2025榮獲Outstanding Paper的論文《Score Matching with Missing Data》由Givens、Liu與Reeve提出,精準切入這一分布估計與缺失資料結合的前沿問題。該研究開創性地提出一套理論框架與實作方法,使得Score Matching能自然且有效地延伸到缺失資料環境下,既保有原有SM模型的無需歸一化常數優勢,又兼顧缺失機制的考量,並且理論上嚴謹,於實務層面亦展現卓越效果。
一、研究背景與動機
資料缺失是現代數據分析無法回避的現象,尤其在醫療、金融、感測網路、自然語言處理等領域普遍存在。對於模型訓練而言,缺失資料會使得參數估計困難加劇,既有方法多半依賴插補(imputation)、完全病例分析(complete case analysis)或EM算法等,這些方法通常內含多重假設,或者計算成本高昂。Score Matching在未歸一化模型上的應用,由於不須計算歸一化常數,理論上更適合高維複雜模型,但原本缺少處理缺失資料的途徑。因此本論文正面挑戰傳統框架限制,破解缺失資料下的Score Matching訓練瓶頸,達成理論與實務兼顧的目標。
二、核心方法與創新
本論文的核心技術貢獻可歸納為以下三點:
- 理論建構:作者針對缺失資料情況,正式推導了缺失資料條件下的Score Matching損失函數。透過建構「部分觀測條件的score function」(即對缺失區塊不完全觀測的逆向梯度)以及隱含變量模型中的分布度量,提出一種基於“Marginalized Score Matching”(邊際化得分匹配)的方法。此方法不需要對缺失資料做直接重建,而是將缺失資料視為隱藏變量,而推導出一個可以被樣本加權計算的替代損失函數。
- 估計策略:在實作層面,利用蒙地卡羅取樣(Monte Carlo Sampling)與變分近似(Variational Approximation)相結合,給出一種高效的數值優化方案。此策略允許對部分缺失高維資料快速收斂,且避免了因缺失資料進行複雜補全的運算瓶頸,兼顧計算效率與估計精度。另外,該方法保留了score matching核心優點,即無需明確計算難以估計的歸一化常數。
- 泛化框架:此外,論文提出的框架具高度泛化能力,能涵蓋常見的缺失資料機制,包括MCAR(Missing Completely at Random)、MAR(Missing at Random)與MNAR(Missing Not at Random)。特別針對MNAR情境,作者透過參數化模型對缺失機制做建模,進一步提升估計的穩健性與現實適用性。
三、主要實驗結果
為驗證方法有效性,作者進行大量合成資料與真實資料的廣泛實驗:
- 在多維高斯分布、混合高斯模型與非線性能量基模型(如跳動分布)等合成資料上,方法能穩健估計模型參數,即使有高達40%-50%的缺失率,表現顯著優於傳統插補+score matching或EM-Score Matching組合。
- 在醫療電子病歷(EHR)資料中探索疾病分布建模,該模型能同時處理複雜缺失情形下的資料估計,準確度與資料重建品質提升,並對病患風險分層預測等下游任務帶來正面效果。
- 實驗還深入比較不同缺失機制下的估計誤差,結果顯示本方法對MCAR與MAR表現優異,對MNAR情況亦有良好調適能力,反映其框架的彈性與魯棒性。
四、對 AI 領域的深遠影響
本篇獲獎論文的價值不僅在於其理論突破,更在於其方法對AI實務及研究領域造成的深遠影響:
- 推動未歸一化模型廣泛應用:過去Score Matching受限於資料完整性,無法順應真實世界缺失資料常態。本研究架構打破此限制,促使未歸一化模型能在醫療、金融、工控等領域缺失環境中安心運用。
- 豐富缺失資料統計建模理論:該論文提供缺失資料理論下score function的明確定義與估計方法,填補過往研究對非歸一化模型缺失數據處理不足的空白,並為缺失資料機制的建模與推斷提供新思路。
- 提升隱含變量模型估計效率:隱含變量和部分可觀測變數情況廣泛出現於自然語言、圖形生成及結構化預測等任務,該文章方法對這類模型估計的計算成本與精度有實質貢獻。
- 促進跨領域資料不完整挑戰研究:方法對於臨床醫療數據、系統監控資料及隱私限制造成的部分缺失均有普適性,推動跨域AI系統能面對不完美資料而保持穩健與精準。
綜合而言,「Score Matching with Missing Data」不僅將Score Matching理論提升至新的高度,也提供了缺失資料處理的強大工具,為未來無須完整樣本的機器學習方法鋪下穩固基礎。相信隨著此方法的推廣,將加速能量模型與隱含結構模型在真實世界高維不完整資料中的應用,促進AI系統更貼近現實問題的解決。
論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557
