2026年4月7日 星期二

Score Matching with Missing Data

在機器學習領域中,學習資料分布是核心任務,而「score matching」作為一種參數估計技術,因其在許多先進模型中的關鍵應用而備受重視,例如擴散過程(diffusion processes)、能量模型(energy-based models)與圖模型估計(graphical model estimation)等。Score matching 的特點在於透過估計資料分布的梯度(即 score function),避免了傳統最大似然在計算正規化常數時的巨大計算負擔。然而,在真實世界中,數據缺失是普遍且不可避免的問題,這對任何學習方法而言都是一大挑戰。然而,針對score matching在缺失資料環境中的適用性,過往研究少有深入探討。

來自 Givens、Liu 和 Reeve 三位學者於 2025 年 ICML 所發表的《Score Matching with Missing Data》一文,獲得了傑出論文獎(Outstanding Paper),提出了極具前瞻性的框架與方法,成功將score matching拓展至包含部分缺失資料的場景,廣泛適用於任意子維度資料缺失的情況,完善了該方法在實務中的彈性與實用性。

研究背景與動機

傳統的score matching假設資料是完整可見的,但實際應用中,從醫療數據、遙測資料到用戶行為記錄,常存在缺失值。缺失資料往往會導致模型訓練偏差、估計效果變差,甚至無法使用部分現有方法。雖已有多項缺失資料處理技術(例如多重插補、EM算法),但它們大多聚焦於最大似然或貝式估計框架,score matching 在缺失環境的理論與方法卻鮮少被觸及。

因此,本論文的核心動機在於如何在不放棄score matching便利性的前提下,設計一套通用且理論健全的估計策略,讓score matching不僅能處理完整資料,亦能針對任意子集缺失資料進行有效學習。

核心方法與創新

本論文主要貢獻在於提出兩種創新score matching方法來應對缺失資料問題:

  1. 重要性加權方法(Importance Weighting,IW):此方法基於傳統score matching的目標函數,引入樣本重要性權重以補償缺失機制造成的偏差。具體來說,作者透過對存在缺失的資料部分,計算條件分布的校正權重,使得score matching的參數估計仍保持一致性。重要性加權法具有明確的理論保證,論文中證明了在有限樣本及有限域下的重要性加權估計的收斂界限,並展示該方法在樣本量較小、資料維度較低的環境中表現尤為優異。
  2. 變分推論方法(Variational Approach):針對高維度且缺失模式複雜的資料環境,直接透過建立可行的變分下界來近似缺失資料的似然,從而改寫score matching目標。此方法利用變分分布捕捉缺失資料的潛在結構,並採用漸進優化演算法最大化變分目標,特別適用於維度龐大且缺失模式多變的資料集。

兩種方法在理論與實務上互補,IW方法偏重理論穩定性與低維、小樣本設定,變分方法則在高維度與複雜缺失結構下更具彈性和適用性。此外,作者框架通用,不僅涵蓋基本score matching,也可延伸至擴散模型和其他score-based方法,顯示方法的廣泛適用潛力。

主要實驗結果

為驗證方法效能,論文作者設計多組實驗:

  • 模擬資料中的圖模型估計:透過構造不同缺失比例及模式的圖結構資料,測試兩種方法在結構與參數恢復上的準確度。實驗結果顯示,重要性加權法在低維場景及較少缺失情況下,能顯著提升估計準確率,並且比傳統插補方法更穩健。而變分方法在資料維度升高及缺失模式複雜化時,能保持相對穩定且優異的性能,證明其在大規模問題中的實用價值。
  • 真實世界數據應用:論文亦在健康醫療及社會科學數據上驗證,本方法不僅提升了缺失資料情況下分布估計的可靠性,也帶動下游任務(例如缺失值補齊、異常檢測)的表現改善。

整體而言,實驗充分展現兩種方法各自優勢與限制,並借此彰顯作者所提出框架之彈性與實用性。

對 AI 領域的深遠影響

本篇論文的貢獻深刻推動score matching在實際應用中的潛力,並使之能夠有效處理缺失資料問題,這在人工智慧尤其是無監督學習、生成模型和高維模型估計中意義非凡。以下為本工作帶來的重要影響:

  • 拓展score matching的應用範圍:過去score matching多受限於完整資料,本研究突破此限制,提高了該技術在不完美資料環境下的適用性,促進其在現實世界問題中的廣泛運用。
  • 理論與方法論的雙重進展:透過融入重要性加權與變分推論,作者不僅提供強健的理論保證,也構建了實務可行方案,使學界與產業界均能直接採用。
  • 推動缺失資料建模方法創新:缺失資料問題歷久彌新,本研究提出的新思維與方法,為後續缺失資料處理與未標記資料利用提供了範例,激發更多創新方法與理論誕生。
  • 增進生成模型與圖結構模型的魯棒性:在擴散模型及圖模型等熱門領域中,資料缺失普遍存在,本論文所提技術可提升這些模型在真實環境中的穩定性與表現,有助於推動技術商用與大規模部署。

綜合而言,《Score Matching with Missing Data》不僅在技巧上具有高度創新性,更為score matching方法在面對現實數據挑戰時提供了堅實解決方案。這無疑是機器學習缺失資料研究中的重要里程碑,值得後續研究者深入學習與延伸。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

沒有留言:

張貼留言