隨著人工智慧技術不斷進步,數據驅動的方法在各個領域扮演舉足輕重的角色,而在機器學習中,分布學習(distribution learning)是理解與建模資料生成機制的核心。傳統上,score matching作為一種無需歸一化常數即可學習概率模型的技術,因其在擴散模型(diffusion processes)、能量基模型(energy-based models)及圖形模型(graphical models)估計等方面展現高度潛力,成為研究熱點。然而,現實世界數據往往不完整,存在缺失值(missing data),使得分布估計變得挑戰重重,現有的score matching準則在面對缺失數據時幾乎缺乏系統性解決方案。
本論文《Score Matching with Missing Data》(Givens, Liu, Reeve,ICML 2025榮獲Outstanding Paper獎)精準切入這一研究空白,提出一套通用且具理論保證的框架,成功將score matching方法適應於多數據維度任意位置的缺失情況,為應對實務中普遍存在的數據不完整挑戰,開啟新思路。
研究背景與動機
Score matching最初由Hyvärinen提出,通過最小化數據分布與模型分布的梯度(score function)間差異,避免了計算難以處理的歸一化常數,尤其適用於能量基模型。此方法在隨機微分方程、生成模型等領域都有廣泛應用。不過,當數據存在缺失,直接計算score function梯度變得困難,因為缺失部分的特徵值無法直接取得,導致score matching目標函數無法正常估計。
現有方法多倚賴完全數據或利用插補(imputation)等間接策略,但這些方法或缺理論支持,或在資料多樣性與高維空間下效果不佳。因應此挑戰,作者著手設計兩套方法:一是重要性加權(Importance Weighting, IW)方案,二是變分(Variational)近似方案,兩者可互補應對不同場景,以彈性且穩健的方式處理任意形式缺失。
核心方法與創新
1. 重要性加權(IW)方法:此方法針對缺失數據的score matching目標函數,提出使用重要性加權技巧來校正因缺失造成的偏差。具體來說,對於觀察到的部分變量,作者利用對觀察值條件分布的估計權重,調整score function的計算,使得整體目標依然是無偏估計。此方法具有明確的理論保證,包括在有限樣本條件下的誤差界(finite sample bounds),能保障在有限離散空間中基於有限樣本的估計一致性及收斂速度。
2. 變分近似方法:當數據維度高,缺失模式複雜且樣本數充足時,IW方法的計算代價及方差可能較大。作者因此引入變分推斷技術,通過設計合適的變分分布來近似缺失部分的後驗,將score matching目標轉化為一組可微分且穩定的目標函數。此方法不僅能自然地整合不同缺失掩碼(mask)資訊,更可藉由黑盒變分推斷擴展至複雜分布與高維圖形模型中,維持計算效率與估計精度。
創新點總結:
- 首開先例全面考慮score matching在任意缺失模式下的理論化處理。
- 提出兩套相輔相成的方法,涵蓋低維有限樣本及高維複雜結構場景。
- 導入重要性加權及變分推斷兩大機制為score matching缺失問題提供實務可行解。
- 證明IW方案具樣本誤差控制界,驗證理論嚴謹性。
主要實驗結果
作者的實驗涵蓋多種典型問題與數據集:
- 小樣本、低維度場景:透過合成數據和多項分布,測試IW方法在缺失比例變化下的穩健性與精確性。結果顯示IW方法在有限樣本下的估計誤差顯著低於傳統插補或忽略缺失的baseline,重點體現理論預測的有效性。
- 高維圖形模型估計:在模擬社交網絡或基因調控網絡等複雜結構中,使用變分方法估計條件依賴結構及node-wise分布。實驗不僅展示其優於常用EM或馬可夫鏈蒙特卡羅(MCMC)方法的計算效率,更在真實數據(如基因表達數據)上取得優越的結構學習準確率及較小的預測誤差。
實驗結論指向兩種方法的互補性:IW方法適用於數據有限且維度較低,變分方法則擅長應對高複雜度及大量缺失的場景。這一策略為處理實際數據提供了靈活又可信賴的工具包。
對 AI 領域的深遠影響
這篇論文的提出,可說是score matching應用上的一次突破性擴展:結合理論嚴謹性與實務可行性,直接面對現代數據科學中不可避免的缺失數據問題。它的貢獻具體體現在:
- 擴大了score matching在生成模型與能量基模型中,對不完整數據的適用範圍,推動更真實世界場景的建模。
- 為缺失數據問題提供全新角度,超越常見的插補和隱變量EM方法,尤其在結構學習與圖形模型領域表現優異,促進高效且精確的關係推斷。
- 通過重要性加權和變分推斷相結合的雙方法設計,展現面對不同資料維度與樣本量的適應能力,為日後相關研究打下扎實基礎,啟發更多混合策略的探索。
- 推動score matching成為更通用、彈性的工具,使未來AI系統能夠更好地處理缺失和不完整數據,提升真實應用場景的智能化水準。
總結而言,Givens等人2025年在ICML提出的《Score Matching with Missing Data》論文,不僅在理論層面深化了score matching的理解,也在工程實踐中展現其應用潛力,是該領域值得深入研究與持續關注的里程碑之作。
論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557
