行有餘力則以學文: Score Matching with Missing Data

隨著深度學習和統計模型的廣泛應用，如何有效估計高維資料的分布結構成為機器學習領域的重要課題。其中，score matching 作為一種無需明確計算正常化常數（normalizing constant）的機率分布估計方法，在擴散過程（diffusion processes）、能量模型（energy-based modeling）以及圖形模型（graphical model）估計等多個領域有著極為關鍵的應用。然而，現有的 score matching 研究大多假設完整資料可用，卻鮮少探討在資料缺失情況下的應用。

本文由 Givens、Liu 與 Reeve 共著，並在 ICML 2025 被評為 Outstanding Paper，提出了一套創新框架，有效將 score matching 延伸至處理「部分缺失資料」的場景。這對現實中常見的資料缺失問題提供了理論及實務雙重突破，具備高度應用價值和學術意義。

研究背景與動機

實務資料常因偵測失效、隱私限制、成本考量等因素而導致觀測缺失，尤其在多維度數據中，如醫療紀錄、感測器資料、社交網絡資訊等，常見部分維度資料缺失。傳統的概率模型學習方法需假設完整觀察或以完整資料建模，對於缺失資料通常採用插補（imputation）或使用 EM 演算法，但這往往增加模型複雜度與偏誤。對於 score matching，本質上因為不需計算分布常數，享有計算上的便利，然而如何兼顧部分缺失資料的靈活結構，仍是一大挑戰。

Givens 等人瞄準此問題，目標是設計一套可行且理論扎實的 score matching 方案，能在任意部份維度缺失的通用情境下穩健操作，進而推廣至各種 score matching 擴展方法，讓此技術成為缺失資料分析的新利器。

核心方法與創新

論文主要貢獻在於提出兩個可針對缺失資料採用的 score matching 變種：

重要性加權（Importance Weighting, IW）方法：此方法根據資料缺失的模式對完整資料的 score function 加以加權，通過調整資料權重，使原本對完整向量計算梯度的 score matching 估計轉換為可直接運算於已觀測的資料子集。該方法特別適用於維度較低且樣本數不多的場景，作者在離散有限域設定下，推導了對應的有限樣本誤差界限，對小樣本問題有理論保障與實驗驗證。
變分（Variational）方法：針對複雜高維空間，IW 方法的效率和穩定性可能下降，因此作者設計了一個基於變分推斷的 score matching 轉換機制，利用可學習的變分分布同時對缺失值進行建模與分布估計，從而有效緩解高維資料中缺失機制帶來的挑戰。此方法較為靈活，能在多維度且部分缺失狀態多變的設定中調優，且能與強大的深度模型結合。

這兩種方法互為補充，論文亦將 score matching 的多種經典擴展納入整體架構中，包含在能量基模型、圖形模型估計等不同應用場景均具通用性和擴展性，是目前首個完整涵蓋部分缺失 score matching 的工作。

主要實驗結果

為驗證方法實效，作者進行多組實驗，橫跨人工合成資料與實務資料：

合成數據與低維離散域：在資料維度較低且樣本稀少的設置下，IW 方法顯示出明顯優於基準方法的估計穩健性與收斂速度，尤其在缺失率較高時，能保持較低的參數估計誤差，且理論誤差界限與實驗結果相符。
高維圖形模型估計：在模擬及真實圖形模型資料中，變分方法表現出高度適應性，能有效處理部分維度隨機缺失，推斷圖模型結構與參數準確度顯著提升。與現有插補或不考慮缺失的模型相比，能夠穩定獲得更有意義的結構信息，尤其在社群偵測與基因網絡重建等應用中展示強大潛力。
多種缺失機制測試：除隨機缺失 (MCAR) 外，作者亦針對部分非隨機缺失機制進行評估，顯示所提方法在合理假設下仍具魯棒性，對真實世界應用具有現實指標意義。

對 AI 領域的深遠影響

此論文在方法論與應用層面啟示深遠：

突破缺失資料困境：score matching 由於可避免複雜常數計算，對無監督及生成模型極其重要。此次利用 IW 與變分方法雙管齊下，首次構建出一套理論嚴謹且實用的部分缺失 score matching 框架，彌補了長期以來缺失資料估計的空白。
促進高維生成模型發展：在生成模型與能量基模型領域，資料完整性是一大瓶頸，作者提出的變分 score matching 方法有效對抗資料不完備，能促使更複雜且貼近真實世界的數據生成模型快速發展，尤其牽涉到生物醫學、社會網絡與金融風險管理等多個高維艱難領域。
推動缺失資料理論研究：從理論角度，該研究嚴謹建立了 finite sample bounds，提供機率保證，促進了缺失資料與無監督學習理論的交叉發展，有助於未來更多融合 score matching 及缺失資料分析的研究探索。
多元應用擴展與深度學習結合：此工作框架具備極佳可擴展性，適合未來與變分自編碼器、能量基神經網路、擴散模型等最前沿技術整合，使缺失資料環境下的密度估計與生成任務更具魯棒性與靈活度。

總結來說，Givens 等人的「Score Matching with Missing Data」不僅突破了 score matching 在資料缺失情境下的理論與方法瓶頸，更在實踐中展現卓越成效，是 AI 領域尤其是分布學習與生成模型中關鍵性的一篇傑出論文。這項工作將引領未來針對不完整數據的可靠機率模型設計與分析，成為研究人員與工程師提昇資料分析能力的重要基石。

論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

行有餘力則以學文

常用資訊速查

2026年6月13日星期六

Score Matching with Missing Data

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

2026年6月13日 星期六

Score Matching with Missing Data

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

2026年6月13日星期六