2026年5月7日 星期四

Score Matching with Missing Data

在機器學習及統計建模領域中,學習資料的機率分布是一項基礎且關鍵的任務。當中,score matching 作為一種無需估計正規化常數的有效演算法,已被廣泛應用於擴散過程(diffusion processes)、能量基模型(energy-based models)、以及圖形模型(graphical models)的參數估計。然而,現有大多數score matching方法均假設資料是完整可觀測的,這在現實場景中卻往往難以成立,因為缺失資料(missing data)普遍存在於醫療、金融、遙感等領域。

本篇由Givens、Liu與Reeve共同發表於ICML 2025的論文《Score Matching with Missing Data》榮獲Outstanding Paper獎,其核心貢獻在於突破傳統score matching在缺失資料情況下應用的限制,提出了適用於任意部分維度缺失的靈活架構,並設計了兩種嶄新的score matching變體,分別是重要性加權(Importance Weighting, IW)方法變分推論(Variational)方法,以解決缺失資料標準化不易處理及高維資料估計困難的問題。

研究背景與動機

Score matching由Hyv\"arinen在2005年提出,是一種基於資料得分函數(log-density的梯度)的無監督學習技術,透過最小化模型分布與真實分布的斯柯爾距離(score matching loss)來估計概率模型參數。這種方法特別適合對於正規化常數難以計算的模型,如能量基模型(EBM),提供了一條免去繁複積分的捷徑。

然而,真實世界資料通常伴隨著缺失問題。例如,在健康照護數據中,患者可能缺少部分檢測數據;在感測器網絡中,節點故障導致部分資料缺失。缺失資料讓score matching無法直接計算完整的打分函數,甚至難以定義損失函數,因此過去研究少有系統性探討score matching如何在缺失資料存在時有效學習概率模型。

基於此,本論文提出靈活的框架,能處理任意維度上任意形態的部分缺失,並兼顧理論上的有限樣本誤差界定與高維數據上的實踐效能,填補現有研究的空白。

核心方法與技術創新

本篇論文中提出了兩種不同但互補性的解決方案:

  1. 重要性加權(Importance Weighting, IW)方法:此方法核心理念是透過對帶缺失的樣本利用重要性取樣重加權,使其得分匹配估計不會因缺失維度而偏移。此做法適用於離散有限域的問題,作者嚴謹地證明了有限樣本條件下的誤差界限,確保模型可在小樣本低維度的場景下穩健表現。它的優點是解析度高、理論保證完整,對於缺失模式易於掌控的情境極具優勢。
  2. 變分推論方法:考量到重要性加權在高維及連續空間的缺陷,作者提出利用變分推論技術,將缺失維度作為潛變數進行近似後驗推斷,使得score matching目標函數得以在變分下界上優化。此方法特別適合高維度及複雜缺失模式,能夠有效捕捉資料內在共變結構,進而提升模型表現與穩定性,並且可直接應用於圖形模型估計等複雜結構化任務。

兩種方法從理論分析、演算法設計到實驗檢驗皆詳盡陳述。作者特別指出這兩個方法彼此補充:IW法在小樣本與低維時表現卓越,而變分方法則在大規模的高維設定中更具優勢。

主要實驗與成果

為驗證所提出方法的有效性,論文中設計了多組實驗,涵蓋模擬資料與實際資料集:

  • 模擬數據上的缺失數據重建:作者首先在受控合成資料設定中測試IW及變分方法的缺失資料恢復能力。結果顯示,由於IW方法在低維、小樣本環境具有限製界,重建誤差明顯低於直接忽略缺失的傳統方法。
  • 圖形模型估計:以高維Gaussian圖形模型為例,測試在不同缺失機制及缺失比例下,作者提出的變分方法能準確重建圖形結構,而傳統方法及其他基準策略表現有限。此實驗展現該方法在複雜結構與高維資料中強健的推斷能力。
  • 真實世界資料集:在一個真實影像及基因資料集的案例中,兩種方法根據缺失分布與維度特性交替展現優異成效,證明框架不僅理論先進,更具備實際應用價值。

整體而言,本研究的方法在存在系統性缺失的資料中,均顯著優於傳統補齊或刪除遺失觀測值的基線模型,不僅提升了估計精度,也提高了模型解釋能力與泛化表現。

對 AI 領域的深遠影響

本論文透過理論與實證結合,開創性地將score matching方法擴展到缺失資料學習這個核心且普遍存在的問題領域。這對機器學習社群具有多方面的重要意義:

  • 拓展能量基模型與擴散模型的應用維度:眾多前沿生成模型架構,如EBM及擴散模型,依賴score function的學習。本研究架構使這類模型可面對不完整資料時仍能穩定訓練,進一步促進在醫療影像重建、異常偵測等高缺失場景的應用。
  • 帶來理論嚴謹的缺失資料推斷新思維:在統計學中,缺失資料問題繁雜多變,本論文從score matching角度給出有限樣本界限,並結合變分推論,為缺失資料下的無監督學習帶來新一代方法論及工具,將激勵後續在其他無監督或半監督模型的研究。
  • 促進高維度複雜資料結構學習技術突破:隨著現代資料規模激增及特徵維度增多,如何有效處理高維缺失資料的機率模型學習成為挑戰。本論文提出的變分方法兼具靈活性與表達力,對圖形模型結構學習及類神經網絡等結合概率推斷的未來研究方向有重要推動作用。

綜合而言,Givens等人的這項工作不僅解決了score matching在缺失資料學習時的技術瓶頸,更從根本改寫了缺失資料問題處理範式,預計將成為未來AI與統計推斷多領域交叉研究的重要基石。隨著更多高維大數據背景下的不完整資料問題日益突出,此論文的理論成果與演算法實踐將在學術界與工業界引發廣泛迴響。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

沒有留言:

張貼留言