行有餘力則以學文: Score Matching with Missing Data 深度簡介

2026年4月25日星期六

Score Matching with Missing Data 深度簡介

在機器學習領域中，分布學習（distribution learning）是一個核心課題，尤其在生成模型、能量型模型（energy-based models）以及圖形模型（graphical models）等領域中，能有效估計資料分布函數，是實現多項任務的基礎。Score matching 作為一種避開標準最大似然法困難的有效工具，因其不需直接估計正規化常數而廣受歡迎，並在諸多領域如擴散模型（diffusion models）中佔有重要地位。

然而，現有的 score matching 方法普遍假設觀測資料完整，未考慮資料遺失的情況，而實務中，缺失資料（missing data）卻是相當常見的挑戰，無論是醫療、社會科學，甚至工業數據收集，都可能因各種原因導致部分觀測變數缺失。為了使 score matching 具備更廣泛的實用性，迫切需要發展能有效處理缺失資料的擴展方法。

研究背景與動機

「Score Matching with Missing Data」由 Givens、Liu 與 Reeve 在 ICML 2025 發表並榮獲 Outstanding Paper 獎，聚焦解決 score matching 在有缺失資料時的理論與實務問題。此篇論文的核心動機源自於目前大多數分布學習算法對於缺失資料的適應性不足，缺少理論擔保，也無法靈活應對任意坐標子集中部分缺失的情況。

傳統的缺失資料處理通常依賴插補（imputation）策略或是完整資料的最大似然推估（如 EM 演算法等），然而在高維度且模型結構複雜時，這些策略往往難以實現或計算成本昂貴。而 score matching 不需計算模型正規化常數的特性，使其對於這些情境天然具備優勢，然而缺乏對缺失資料的適應設計，限制了它的使用範圍。該研究因此提出構建兩種可行且有效處理缺失資料的 score matching 版本，分別為「重要性加權（Importance Weighting, IW）」方法與「變分（Variational）」方法。

核心方法與創新

該論文的核心貢獻可分為兩個部分：

重要性加權 (Importance Weighting) Score Matching：
針對離散有限域的資料，作者設計了一種基於重要性加權技巧的損失重構方法。其核心思想是透過對缺失資料的條件機率進行加權校正，使得 score matching 的目標函數可調整為在觀測部分上的期望形式。如此一來，即使部分資料缺失，依然能保持分布學習的一致性與無偏性。同時，論文理論嚴謹，推導了有限樣本誤差界限，使得該方法在小樣本與低維度場景下性能卓越，並具備堅實的統計保證。
變分 (Variational) Score Matching：
變分方法則適用於高維複雜問題，尤其是實數空間的連續資料。作者引入變分分布來近似因缺失而無法直接觀測的隱變量，將原本難以計算的條件期望替代為可優化的變分下界（variational lower bound）。這一設計使方法在高維且複雜的圖形模型上能表現出色，因為它能靈活學習缺失部分的隱含結構，且計算上可行。此變分框架擴展了score matching的有效範圍，解決了過往方法遭遇維度災難的瓶頸。

綜合來看，兩種方法互為補充：重要性加權方法計算簡潔，適用於低維度小數據；變分方法則較適合處理大規模且高維的實際案例，為缺失資料分布學習提供更加普適與彈性的工具。

主要實驗結果

在評估上，論文通過廣泛的模擬實驗和真實數據分析驗證理論與方法的有效性：

低維有限域模擬實驗：重要性加權方法在少量樣本下展現出明顯的性能優勢，相較於傳統的插補法或忽略缺失的策略，能有效降低估計偏誤與變異。
高維圖形模型估計：變分方法在高維的圖形模型結構學習上表現突出，能同時進行結構與參數估計，且在處理真實網絡數據上（如社會網絡或生物信息資料）優於現有基準方法。
缺失模式彈性：不論缺失資料的位置與程度，本研究的方法皆能穩健適應，這也代表在現實中面對非均勻缺失、非隨機缺失時，依然保持良好效能。

對 AI 領域的深遠影響

此篇論文對 AI 領域，尤其是深度生成模型、概率圖模型和統計學習領域有著重要的推動意義：

推進缺失資料分布學習的理論與實務邊界：過去針對缺失資料的分布學習缺少統一且理論完備的方法，本文透過嚴謹的數學推導與實驗支持，為 score matching 在這種情境中建立了新的標準，彌補了過去的缺口。
促進應用領域更加廣泛：缺失資料問題在醫療、金融、物聯網等場景屢屢發生，強健的缺失資料分布學習方法將大幅提升模型的實際效能與可靠度，推動 AI 在這些關鍵領域的深入應用。
促發更多研究方向：兩種方法各有優勢，未來研究可進一步探討方法融合、缺失機制識別或與現代深度學習架構整合，結合如深度生成模型、擴散模型的最新成果，使缺失資料處理更為智能與高效。

綜合來說，「Score Matching with Missing Data」 不僅在方法論上創新提出雙軌策略，理論嚴謹且實驗充分，更為缺失資料這一普遍而棘手的問題提供了全新解決途徑，成為未來分布學習與生成模型研究不可或缺的重要里程碑。

論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557