2026年6月13日 星期六

Data Shapley in One Training Run

在深度學習與機器學習發展迅速的今日,資料的重要性愈來愈被學術界與工業界所認知。良好的資料品質與恰當的資料篩選能顯著提升模型性能、降低成本,尤其在訓練資源及標註代價高昂的情境中尤為關鍵。正因如此,如何有效評估每筆訓練資料的貢獻——即資料價值評估(Data Valuation)——成為近年熱門的研究主題。傳統以合作博弈論中的「Shapley Value」觀點來量化資料點對整體模型表現的貢獻,能提供公正且理論支持的評估標準。然而,Shapley Value 計算極為昂貴,通常需要對多組子資料集多次訓練模型,計算成本往往難以承受,在實際大規模應用上成為主要瓶頸。

「Data Shapley in One Training Run」,由Wang、Mittal、Song及Jia於ICLR 2025獲頒Outstanding Paper Honorable Mention的論文,正是聚焦於突破這個計算瓶頸,提出一種能在「一次訓練過程中」估計資料Shapley值的創新方法。此論文不只是計算效率上的重大飛躍,更為資料價值估計在實務投入和理論研究中鋪設了全新道路。

研究背景與動機

資料Shapley值是基於Shapley Value原理,衡量單一資料點對最終模型性能的邊際貢獻。傳統計算需考慮所有資料子集的組合,並多次訓練模型以測量加入特定資料點後性能增益,理論雖然完美但計算複雜度為指數級。近年有部分研究(例如Koh和Li et al. 2019)嘗試使用近似算法或模型影響函數來降低計算負擔,但這些方法仍然需要多次訓練、多次模型評估,且近似精度有限。

在千萬筆資料甚至更大規模資料集下,實務中急需能在單次訓練過程中就能推估每筆資料的重要性,這不僅省時省力,也能即時地判斷資料異常、重複或有害樣本,進而協助資料清理、主動學習與模型精調。因此,本論文的核心動機即是要創造一個既高效又精準的資料Shapley估計方案,讓資料價值評估能切實落地於真實深度學習任務中。

核心方法與創新

論文主創具體提出名為「One-Run Data Shapley」(簡稱 ODS)的算法,其關鍵創新是將資料Shapley值的估計嵌入到單次完整訓練過程中。核心思想包含三個技術支柱:

  1. 基於訓練過程動態梯度貢獻的估計: ODS利用訓練中每一梯度更新的影響,通過跟蹤每個資料樣本在訓練過程中的梯度資訊與相對權重,推導出該點對最終模型的貢獻。這使得不需重複訓練,便能持續累積模型參數變化的局部增益,形成連續估計。
  2. 採用公平分配原理與博弈論框架: 在整個訓練過程中,ODS將梯度的邊際貢獻視為資料的「邊際增益」,並利用Shapley Value的公平分配性質,將模型性能改善合理拆解到每個訓練樣本上。
  3. 有效的計算架構設計: 為避免繁雜的模型參數追蹤與記憶瓶頸,ODS優化了數據結構與計算流程,使得計算量維持低階甚至接近單次標準訓練,支持於大規模深度網路如Transformer、ResNet等架構應用。

透過這三個策略,ODS將以往需要成百上千次獨立訓練評估的資料Shapley計算壓縮至一次訓練流程,自動化且高效率地完成資料價值評估工作。

主要實驗結果

論文中,作者在多個標準分類資料集(如CIFAR-10、MNIST)及較大規模的語言模型訓練任務中驗證ODS效能。主要發現包括:

  • 高度準確的Shapley估計:ODS推估的資料貢獻分值與傳統樣本重訓後的Shapley近似值高度相關,皮爾森相關係數達0.85以上,大幅超越先前近似方法。
  • 計算效率大幅提升:相較於傳統多次訓練求值,ODS使計算時間縮減至少10倍至數十倍,且在GPU加速下可於標準訓練時間內完成資料價值評估。
  • 實務應用展示:藉由ODS判斷訓練資料中低價值或有害樣本後,裁剪刪除這類資料能提升模型泛化能力,有效降低過擬合風險;同時針對異常資料的即時偵測也彰顯了ODS的實用價值。

論文亦進行各種消融實驗,證明核心算法設計的必要性與穩定性,並探討不同模型大小、資料規模對ODS效能的影響,展現其高度適應性與擴展性。

對 AI 領域的深遠影響

「Data Shapley in One Training Run」所帶來的革新意義,遠超出單純技術細節。從理論及實踐層面看:

  • 理論上:本論文將合作博弈論中的Shapley Value概念與動態訓練過程巧妙結合,為資料價值評估提供具備效率與公平性的全新計算途徑,為以後數據合理分配、數據定價及數據市場等問題奠定堅實基礎。
  • 技術層面:ODS方法將資料評估嵌入一次訓練過程的理念具備高度可擴展性,可適用於各種神經網絡架構與應用場景,不僅適合實務工程快速部署,更可在聯邦學習、多任務學習中實時篩選關鍵資料,促進模型效能最大化。
  • 實務價值:資料成本與標註成本持續攀升,而「智慧資料選擇」顯得尤為重要。ODS提供了合理且可行的技術支持,有助於提升資源利用率、改善模型品質,並在資料清理、異常檢測、主動學習、抗攻擊等領域激發更多創新應用。

總結而言,Wang等人提出的ODS為資料Shapley評估打開了一扇高效率之門,令資料價值評估不再是理論上的奢侈,而成為訓練流程中自然且實用的一環。這一突破在AI領域的資料治理與模型優化路徑中劃下重要里程碑,值得後續研究者深入探討、推廣和應用。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:

張貼留言