行有餘力則以學文: Score Matching with Missing Data

2026年5月26日星期二

Score Matching with Missing Data — ICML 2025 傑出論文深度解讀

在機器學習領域中，分布學習（distribution learning）是理解與建模資料背後生成機制的基石，其中得分匹配（score matching）作為一種無需正規化常數（normalizing constants）的參數估計方法，因其理論嚴謹與實務靈活，已廣泛應用於能量基模型（energy-based models）、擴散過程（diffusion processes）以及圖模型估計（graphical model estimation）等多種熱門領域。

然而，現實世界中的資料往往存在缺失（missing data）問題，無論是感測器故障、使用者未完成填答，或是資料蒐集不完全，都會導致觀測值不完整。缺失資料會對傳統的分布學習方法造成挑戰，尤其是得分匹配這類依賴完整坐標資訊的技術，若未妥善處理缺失，將大幅影響模型的穩定性與估計精度。遺憾的是，過往文獻中關於得分匹配在缺失資料場景下的研究仍非常有限。

研究背景與動機

本論文由 Givens、Liu 與 Reeve 於 ICML 2025 發表，榮獲「Outstanding Paper」獎項，強調在缺失資料條件下，如何有效且理論完善地運用得分匹配方法以進行概率分布估計。作者觀察到現行方法多半集中於資料完整的理想情況，稍有缺失即會導致效能大幅降低，缺乏系統性且通用的解決架構。

因此，本研究基於實務迫切需求與理論創新雙重推動，提出一套能夠靈活處理任意坐標子集缺失的得分匹配框架，除了提升模型的魯棒性，亦保持了理論保障與計算上的可行性。

核心方法與創新點

本論文的關鍵貢獻在於設計了兩套可供選擇、相輔相成的得分匹配變體：

重要性加權（Importance Weighting, IW）方法：此方法透過對觀測分布中的缺失模式加權，重構完整資料中的得分匹配目標函數。研究團隊證明在有限樣本且資料維度較低的設定下，IW 方法能獲得嚴謹的有限樣本誤差上界，理論基礎穩固且表現十分穩健。此策略特別適合在缺失機制相對簡單，且缺失範圍有限的場合使用。
變分（Variational）方法：針對高維、缺失機制複雜的情境，變分方法引入潛變數變分分布，將缺失資料視為隱藏變數，加以推斷與優化。此方法利用變分下界來近似得分匹配目標函數，使模型在高維及大規模資料上仍具有良好適應能力。實驗顯示，該方法在圖模型估計任務中表現優異，尤其當資料維度多且缺失模式複雜時，能顯著超越其他比較基線。

兩者設計理念各有側重，IW 注重理論嚴謹與小樣本精度，變分方法則強調擴展性與高維表現，對不同應用場景形成良好互補。

主要實驗結果

為驗證提出方法的實務效能與理論性能，研究團隊在多組合成與真實資料上進行了廣泛實驗，重點包含：

在有限資料低維案例中，IW 方法展現出較其他傳統手段與不加權方法更優異的分布逼近效果，特別是在缺失比例中等且分布結構簡單時，能有效降低估計誤差。
在高維度真實資料上應用圖模型估計時，變分方法不僅在結構辨識準確率上勝出，且對缺失機制的適應性更強，能成功恢復部分缺失訊息並提升模型推論效能。
所有實驗均驗證了本論文對缺失資料數理特性的深入掌握，包含針對缺失模式進行加權與建模的設計合理性。

對 AI 領域的深遠影響

本論文的貢獻超越了單純的技術進步，它在處理缺失資料問題上的創新，為機器學習社群提供了新視野與新工具：

補足缺失資料理論空白：過去對於得分匹配方法的理論研究多半忽略缺失資料影響，或是只在特定假設下進行。此工作系統性地填補了這項空白，將得分匹配推向更貼近實務的情境。
增強模型可用性與魯棒性：在高維及複雜資料環境中，缺失問題經常是性能瓶頸。本論文的方法有效提升了模型面對不完整資料的處理能力，對於像擴散模型、能量基模型等尖端技術具有直接助益。
方法通用且可擴展：所提出的兩種方法設計靈活，適用於多種資料結構與缺失機制，為未來延伸如半監督學習、異質資料融合提供理論基礎。
推動缺失資料估計的跨域應用：從醫療影像、金融風險評估到自然語言處理，缺失資料普遍存在。本論文的方法具備良好解決途徑，預計將在多領域催生更準確且具解釋力的概率模型。

綜上所述，Givens 等人於 ICML 2025 所提出的「Score Matching with Missing Data」不僅是一篇理論深厚且實驗扎實的傑出論文，更代表了一項重要里程碑：將得分匹配技術成功延伸至含缺失資料的真實世界，這對未來 AI 在不確定與不完全資訊環境下的應用將產生深遠且持續的推動作用。

論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557