在機器學習領域中,分布學習扮演了基礎且關鍵的角色,尤其在生成模型、能量基模型(energy-based models)與擴散過程(diffusion processes)的訓練中具有廣泛應用。傳統學習分布的方法如最大似然估計(MLE)常因模型不可解或計算成本過高,而難以直接使用。作為替代,score matching(分數匹配)是一種透過估計資料分布對數密度的梯度(稱作 score function)來學習模型的技術,因其無需計算正規化常數而深受研究者青睞。儘管如此,目前大多數關於 score matching 的研究均假設資料為完整觀測,然而真實世界的資料經常存在缺失值,這使得如何在資料不完整的狀況下有效利用 score matching 成為一項重要且富挑戰性的課題。
來自 Givens, Liu 以及 Reeve 等作者於 2025 年 ICML 發表並榮獲 Outstanding Paper 的論文《Score Matching with Missing Data》正是針對這個問題提出了突破性的解決方案。作者們針對任意座標子集資料缺失的情況,發展出兩套創新的 score matching 變體,成功克服了過去缺乏理論與實證支持的困境,推動了 score matching 技術向實務應用的更廣泛擴展。
研究背景與動機
缺失資料在各種領域皆普遍存在,如醫療數據缺漏、感測器故障造成的資訊不全、以及資料收集過程中被遺漏的部分特徵等。傳統的缺失資料處理策略多倚賴插補(imputation)方法或是對缺失機制建模,然而這些方法通常依賴嚴格假設或是可能導致偏差。另一方面,score matching 由於其固有對密度正規化常數的不依賴特性,是處理複雜模型學習的理想工具,但過去對於缺失資料的擴展性研究極為不足,原因在於缺失資訊使得對 score function 的直接估計變得困難。
因此,本論文的動機即是:在資料部分缺失且缺失模式任意的普遍場景下,是否能將 score matching 方法延伸並適用,並且在理論與實務上都能展現出優越性能?此外,如何兼顧低樣本量、小維度以及高維複雜結構等不同場景,設計出靈活且健壯的演算法,是本研究重要的挑戰。
核心方法與創新
本論文中,研究團隊提出了兩種因應缺失資料的 score matching 方法:
- 重要性加權(Importance Weighting, IW)方法:此方法透過利用觀測資料中可見部分的機率結構,對 score matching 的估計式加入重要性權重修正。該權重用來補償缺失資料帶來的觀測偏差,使分數函數的估計仍能以未缺失資料的分布作為基準,理論上能保證無偏估計。作者進一步針對此方法在有限樣本和有限域的情況下導出誤差邊界,提供了嚴格的理論保證。實驗顯示 IW 方法在樣本量較少及資料維度較低時效果尤為顯著,有助於穩定模型訓練。
- 變分方法(Variational Approach):針對高維及結構複雜的資料,IW 方法在計算上可能顯得不足。為此,研究者設計了一套變分框架,將 missing data 問題形式化為關於條件分布的優化問題,透過引入變分分布來對缺失部分做隱變量建模,變分參數同時隨模型參數一起優化。該方法結合了變分推斷和 score matching,使得學習過程能夠有效整合不完整資料的隱含資訊,特別適合於圖模型等結構化模型的訓練。
這兩種方法互為補充,前者側重理論嚴謹與小樣本表現,後者則強調實務應用於高維複雜狀態下的靈活性與效率。
主要實驗結果
作者在多個實驗設計中驗證了提出方法的有效性:
- 在模擬數據上的實驗,研究團隊評估了兩種方法在不同缺失率、樣本量及維度下的表現。IW 方法在維度較低且樣本有限的情況下展現出穩定且準確的 score function 估計,而變分方法則在維度升高時明顯優於傳統方法,特別是在缺失資料複雜結構的場景中。
- 對於實際資料,作者針對圖模型結構學習問題設計實驗,證明變分方法能有效估計帶缺失值的圖模型參數,並且在真實應用中提升了模型的預測能力及結構識別準確率。
- 理論與實驗相結合,論文提出的兩種 score matching 變形均達到較現有技術更優的性能,特別是在缺失資料普遍存在的環境下,大幅提升了分布學習的魯棒性和應用範圍。
對 AI 領域的深遠影響
本論文對於 AI 研究尤其是生成模型和統計建模領域產生了以下重要影響:
- 拓展了 score matching 的應用邊界:以往 score matching 多限於完整資料情況,該研究成功突破此限制,賦能於缺失資料學習,進一步促進能量基模型及相關模型在更真實且雜訊資料環境中的發展可能。
- 促進缺失資料處理的新思路:與傳統插補或專門為缺失設計之模型相比,這裡的方法不需明確建模缺失機制且有理論保證,為未來缺失資料分析提供了新的理論基礎和工具,有助於提高缺失資料問題的泛化能力與穩健性。
- 加強結構化模型的訓練能力:變分 score matching 方法使得高維結構模型(如圖模型)能在存在缺失的條件下依舊有效學習,解決了許多實務中常見的資料不完整困境,推動了複雜互動系統與網絡分析的前沿研究。
- 促進小樣本學習的準確性及穩定性:重要性加權的邊界理論和實務驗證有助於小樣本場域下的密度估計,對醫療、金融等數據有限但缺失普遍的領域具有重要應用價值。
總結來說,《Score Matching with Missing Data》一文在缺失資料背景下為分布學習方法帶來了里程碑式的進展。該研究不僅透過巧妙方法型塑與嚴謹理論提供了雙重保障,更經由多樣化實驗展現了其廣泛且實用的潛力。未來隨著資料蒐集及應用場景愈發多元複雜,本論文提出的策略將成為推動 AI 分布式建模與不完整資料分析的核心基石之一。
論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

沒有留言:
張貼留言