常用資訊速查

2026年6月1日 星期一

Score Matching with Missing Data

在機器學習領域中,分布估計一直是核心且具挑戰性的任務。透過學習資料底層的機率分布模型,不僅能促進生成模型、異常偵測、圖模型學習等多種應用,更是理解資料結構的基石。其中,「score matching」作為一種無需計算正規化常數(normalizing constant)的分布學習方法,因其強大的理論基礎與實用性,成為近年研究的重要工具。然而,現實世界資料往往存在缺失(missing data)問題,無論是感測器故障、隱私限制或資料記錄不全,經常導致觀測資料不完整,這大幅增加建模的難度。儘管 score matching 在完整資料下發展成熟,過去對於如何在缺失資料情境下有效運用 score matching 支持分布估計的討論與方法卻甚少。

針對此一重要且未被充分探討的議題,ICML 2025 獲獎論文《Score Matching with Missing Data》由 Givens、Liu 與 Reeve 共同提出具有突破性的解決方案。本文不僅首次系統性地將 score matching 延伸至能處理部分缺失資料的框架,且提出兩種不同的擴展變體——基於重要性加權(Importance Weighting, IW)的方法,以及變分推斷(Variational)的方法,分別針對不同資料型態下缺失的挑戰做出最佳化。

研究背景與動機

正規分布模型通常依賴最大似然估計,但此方法在面對模型內積難以計算或缺失資料時,會面臨嚴重困難。score matching 由 Hyvärinen 于 2005 年提出,透過轉化原本的似然函數為求解分布梯度(即 score)的目標函數,免除了計算難以取得的正規化常數。而且,score matching 對能量基模型(Energy-Based Models, EBM)、擴散模型(Diffusion Models)以及圖模型(Graphical Models)等領域效果卓越,成為不可替代的分布估計技術之一。

儘管如此,真實場域中資料缺失是司空見慣的問題,這使得傳統 score matching 方法設計時假設完整資料的前提不再成立,直接應用將導致偏誤甚或不收斂。因此,如何將 score matching 安全且有效地延伸到缺失資料上,是推動其實際應用及理論進一步提升的關鍵。

核心方法與創新

本文的核心貢獻在於,提出兩套具理論保證及實務彈性的「缺失資料版本」score matching 方法:

  1. 重要性加權(Importance Weighting, IW)方法:此方法透過建立一個加權機制,針對缺失資料的多樣缺口,計算觀測資料對完整資料分布的貢獻。核心在於導出一個可計算且無偏的加權得分函數,利用有限樣本下理論界限證明其收斂性與穩健性。IW 方法特別適合缺失機率隨機且維度較低的情況,並在小樣本體系中表現優秀。此方法不需對缺失機制進行假設,是一種較為非參數且通用的處理策略。
  2. 變分推斷(Variational)方法:針對高維且缺失資料模式複雜的情境,作者提出使用變分推斷策略,將缺失的隱藏變量參數化為可優化的分布。透過變分下界,結合 score matching 的目標函數重新構造一組易於訓練的可微分優化目標,不僅提升可擴展性,也更能捕捉高維結構與缺失規律。這種方法在大型圖模型結構學習時展現出強大的性能與魯棒性,是針對實際大規模問題的理想選擇。

兩者皆處理部分缺失資料的任意子集合,極大地增加了方法的靈活性,能夠應用於資料缺失非均勻且不規則的真實設定。作者也詳細理論分析並驗證了兩種方法在有限樣本與多種資料結構下的誤差界限,提供理論和實務雙重基礎。

主要實驗結果

作者在多組實驗中驗證了方法的有效性,包括模擬資料與真實資料:

  • 在低維且資料缺失簡單的模擬實驗中,IW 方法表現出色,能在小樣本情境下穩健捕捉底層分布的主要結構,證明其適用於資料維度較低且缺失較隨機的任務。
  • 針對高維圖模型結構估計問題(如社群偵測與基因資料分析),則變分方法表現優異,不只在準確度上勝過傳統缺失資料處理基線,也提升模型對高維複雜缺失結構的適應能力。
  • 此外,實驗涵蓋了非均勻缺失機制的場景,皆展現兩種方法在不同情境下的兼容性與強健性。

這些實驗結果不單確認了理論分析的預測,更向業界展示缺失資料 score matching 方法的實用價值,尤其當標準最大似然無法有效處理時,提供可靠的替代方案。

對 AI 領域的深遠影響

本文提出的缺失資料 score matching 方法在理論及應用層面均開創新局:

  • 理論層面:本研究填補了缺失資料分析與無正規化模型估計兩大領域間的空白,進一步推動 score matching 理論從完整資料向缺失資料場景的關鍵跨步。其提出的有限樣本界限與變分推斷策略,為後續研究提供豐富啟發。
  • 方法層面:靈活可調的 IW 與變分框架,為處理多樣缺失機制提供新範式,且易於整合至現有的能量基模型、擴散模型及圖結構學習演算法中,擴大 score matching 在真實應用的範圍與效率。
  • 應用層面:在現代 AI 領域中,數據完整性不再是理想假設,缺失資料問題普遍存在於醫療、生物信息、社會網絡分析等場景。本論文方法的推出,將強化這些領域模型的實用性和準確性,充份發揮資料的潛在價值。

總結而言,《Score Matching with Missing Data》不僅是對理論機器學習的一大貢獻,更具備真實世界挑戰的高度實用意義。隨著缺失資料問題日益嚴峻,本文方法有望成為未來分布學習及生成模型設計中不可或缺的技術利器,有效推動 AI 在高維不完整資料分析中的理論創新及應用深度。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

沒有留言:

張貼留言