在機器學習領域中,學習資料分布的能力對於許多下游應用至關重要,尤其是在生成模型、擴散過程與能量基模型(energy-based models)等方向。傳統上,score matching(分數匹配)作為一種估計無尺度參數化機率分布的強大工具,因其不需要直接計算難以求解的正規化常數而廣受青睞。然而,現實資料中常見且普遍存在的問題是資料缺失──資料矩陣中部分特徵或觀測可能缺失,這使得 score matching 的直接應用變得困難甚至不可行。
Givens、Liu 與 Reeve 在 2025 年 ICML 發表的論文《Score Matching with Missing Data》中,針對這一實務挑戰提出了突破性的理論及演算法方法。該論文不僅獲得了「Outstanding Paper」獎項,也為處理不完整資料情境下的分數匹配問題,提供了切實可行而且理論嚴謹的新框架,對 AI 社群有深遠影響。
研究背景與動機
分數匹配最初由 Hyvärinen 提出,作為一種估計連續型機率分布的有效工具,避免了傳統極大似然估計須計算正規化常數的瓶頸。它引入的損失函數基於隨機變數的 log-density 的梯度(即 score function),直接利用該梯度的資訊來訓練模型。這在許多模型中尤其適用,例如能量基模型與擴散模型。
然而,資料缺失的情境極其常見,例如臨床醫療數據、問卷調查、感測器故障資料等,這種缺失不僅導致數據產生偏差,也會使得 score matching 的標準目標函數無法直接計算。既有文獻在分數匹配時多假設完全觀測,缺乏可行的擴展策略來處理缺失數據。
因此,本研究聚焦於「在資料缺失條件下,如何有效且靈活地執行 score matching」,並設法在多種缺失模式與坐標子集缺失的普遍場景中保持算法的廣泛適用性和理論保證。
核心方法與創新
作者從理論與實務兩個層面切入,設計了兩種變體來解決缺失資料環境下的 score matching 問題:
- 重要性加權(Importance Weighting, IW)方法:
該方法透過重要性權重重新調整完整資料分布的估計量,彌補由於部分特徵缺失所導致的偏差。作者提出一套基於可見坐標的權重調整機制,在有限的資料樣本下仍能高效估計期望的分數函數。此外,他們分析了此方法於有限離散域(finite discrete domain)場合的誤差上界,並證明該方法在樣本數較少且維度較低的設定中表現特別穩健。
- 變分推斷(Variational)方法:
針對高維度與複雜結構的資料,作者則從變分推斷角度出發,建立可擴展的 score matching 優化目標。此方法利用變分近似對缺失特徵進行推斷,減少計算成本並提升在高維環境中的估計精度。實驗展示該方法在複雜圖模型(graphical models)估計任務中效果顯著,彌補了 IW 方法在高維場景中的侷限。
此兩種方法相輔相成,覆蓋了不同維度、不同資料缺失型態及樣本數量的多樣化應用場景,增加了其方法的實用性與靈活性。更重要的是,作者完整且嚴謹地給出了理論分析,從有限樣本誤差界定到算法收斂性,為 score matching 融入缺失資料提供了堅實的數學基礎。
主要實驗結果
論文中透過多組實驗驗證了方法的有效性:
- 低維度與小樣本實驗:在合成數據的低維設定下,相較傳統刪除缺失資料或簡單插補的方法,重要性加權法在估計分布的 KL 散度和參數估計誤差均有明顯優勢,尤其當缺失比例中高,樣本量有限的情況下表現穩定。
- 高維圖模型估計:使用包括實際社會科學資料與合成的複雜圖模型資料集,變分方法在學習圖結構和節點間依賴關係方面超越傳統 EM 演算法與其他基線方法。該方法不僅提升了推斷準確度,也縮短了收斂時間。
- 實務缺失資料應用:作者進一步驗證模型能夠處理不同缺失模式(隨機缺失與非隨機缺失)下的健壯性,強調方法在現實狀況中的適應性。
整體來說,這些實驗不但展示了方法的強大彈性與適用廣度,也鞏固了理論分析的實用價值。
對 AI 領域的深遠影響
本論文提出的 score matching 缺失資料處理框架,突破了傳統分數匹配法要求完整資料的限制,使其能廣泛應用於現實中普遍存在的缺失數據挑戰。這一突破,有望在以下幾個方面帶來深遠影響:
- 生成式模型訓練的普適性提升:隨著擴散模型和能量基模型在生成任務中的崛起,缺失資料的存在極大制約了這些模型的應用範圍。該論文所提方法能使模型直接從不完整資料學習,提高生成式模型在真實世界資料下的訓練和推理能力。
- 多領域資料分析的魯棒推斷:醫療、社會科學、金融等領域資料常受限於樣本缺失,以往多依賴插補等預處理方式。新方法提供了一種更嚴謹且理論支持的手段來直接處理缺失,是減少偏差與提升模型準確率的新選擇。
- 提高無監督學習方法的可行性:score matching 作為無監督學習一種重要路徑,解決缺失資料問題將助力無監督表徵學習,使模型得以從大量不完整但未標注的資料中萃取有效資訊,推動自監督學習和表徵學習技術發展。
- 理論與實踐結合的典範:該研究不僅提出創新的演算法設計,並提供了嚴謹的有限樣本理論分析,堪稱理論與實務相結合的典範,為後續研究提供了堅實基礎和啟示。
總結而言,Givens 等人於 ICML 2025 發表的《Score Matching with Missing Data》論文,從根本性問題切入,創新地將 score matching 技術擴展至缺失資料場景,融合重要性加權與變分推斷兩大核心策略,並透過嚴謹理論保障與實證實驗驗證,為 AI 領域處理缺失數據問題提供了全新、有力的工具和視角。相信此開創性工作將成為未來相關研究的重要基石,推動各種基於分數匹配的機率建模更廣泛、更精確地應用於現實生活中的複雜資料。
論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

沒有留言:
張貼留言