行有餘力則以學文: Data Shapley in One Training Run

2026年6月13日星期六

Data Shapley in One Training Run

在深度學習與機器學習發展迅速的今日，資料的重要性愈來愈被學術界與工業界所認知。良好的資料品質與恰當的資料篩選能顯著提升模型性能、降低成本，尤其在訓練資源及標註代價高昂的情境中尤為關鍵。正因如此，如何有效評估每筆訓練資料的貢獻——即資料價值評估（Data Valuation）——成為近年熱門的研究主題。傳統以合作博弈論中的「Shapley Value」觀點來量化資料點對整體模型表現的貢獻，能提供公正且理論支持的評估標準。然而，Shapley Value 計算極為昂貴，通常需要對多組子資料集多次訓練模型，計算成本往往難以承受，在實際大規模應用上成為主要瓶頸。

「Data Shapley in One Training Run」，由Wang、Mittal、Song及Jia於ICLR 2025獲頒Outstanding Paper Honorable Mention的論文，正是聚焦於突破這個計算瓶頸，提出一種能在「一次訓練過程中」估計資料Shapley值的創新方法。此論文不只是計算效率上的重大飛躍，更為資料價值估計在實務投入和理論研究中鋪設了全新道路。

研究背景與動機

資料Shapley值是基於Shapley Value原理，衡量單一資料點對最終模型性能的邊際貢獻。傳統計算需考慮所有資料子集的組合，並多次訓練模型以測量加入特定資料點後性能增益，理論雖然完美但計算複雜度為指數級。近年有部分研究（例如Koh和Li et al. 2019）嘗試使用近似算法或模型影響函數來降低計算負擔，但這些方法仍然需要多次訓練、多次模型評估，且近似精度有限。

在千萬筆資料甚至更大規模資料集下，實務中急需能在單次訓練過程中就能推估每筆資料的重要性，這不僅省時省力，也能即時地判斷資料異常、重複或有害樣本，進而協助資料清理、主動學習與模型精調。因此，本論文的核心動機即是要創造一個既高效又精準的資料Shapley估計方案，讓資料價值評估能切實落地於真實深度學習任務中。

核心方法與創新

論文主創具體提出名為「One-Run Data Shapley」（簡稱 ODS）的算法，其關鍵創新是將資料Shapley值的估計嵌入到單次完整訓練過程中。核心思想包含三個技術支柱：

基於訓練過程動態梯度貢獻的估計： ODS利用訓練中每一梯度更新的影響，通過跟蹤每個資料樣本在訓練過程中的梯度資訊與相對權重，推導出該點對最終模型的貢獻。這使得不需重複訓練，便能持續累積模型參數變化的局部增益，形成連續估計。
採用公平分配原理與博弈論框架： 在整個訓練過程中，ODS將梯度的邊際貢獻視為資料的「邊際增益」，並利用Shapley Value的公平分配性質，將模型性能改善合理拆解到每個訓練樣本上。
有效的計算架構設計： 為避免繁雜的模型參數追蹤與記憶瓶頸，ODS優化了數據結構與計算流程，使得計算量維持低階甚至接近單次標準訓練，支持於大規模深度網路如Transformer、ResNet等架構應用。

透過這三個策略，ODS將以往需要成百上千次獨立訓練評估的資料Shapley計算壓縮至一次訓練流程，自動化且高效率地完成資料價值評估工作。

主要實驗結果

論文中，作者在多個標準分類資料集（如CIFAR-10、MNIST）及較大規模的語言模型訓練任務中驗證ODS效能。主要發現包括：

高度準確的Shapley估計：ODS推估的資料貢獻分值與傳統樣本重訓後的Shapley近似值高度相關，皮爾森相關係數達0.85以上，大幅超越先前近似方法。
計算效率大幅提升：相較於傳統多次訓練求值，ODS使計算時間縮減至少10倍至數十倍，且在GPU加速下可於標準訓練時間內完成資料價值評估。
實務應用展示：藉由ODS判斷訓練資料中低價值或有害樣本後，裁剪刪除這類資料能提升模型泛化能力，有效降低過擬合風險；同時針對異常資料的即時偵測也彰顯了ODS的實用價值。

論文亦進行各種消融實驗，證明核心算法設計的必要性與穩定性，並探討不同模型大小、資料規模對ODS效能的影響，展現其高度適應性與擴展性。

對 AI 領域的深遠影響

「Data Shapley in One Training Run」所帶來的革新意義，遠超出單純技術細節。從理論及實踐層面看：

理論上：本論文將合作博弈論中的Shapley Value概念與動態訓練過程巧妙結合，為資料價值評估提供具備效率與公平性的全新計算途徑，為以後數據合理分配、數據定價及數據市場等問題奠定堅實基礎。
技術層面：ODS方法將資料評估嵌入一次訓練過程的理念具備高度可擴展性，可適用於各種神經網絡架構與應用場景，不僅適合實務工程快速部署，更可在聯邦學習、多任務學習中實時篩選關鍵資料，促進模型效能最大化。
實務價值：資料成本與標註成本持續攀升，而「智慧資料選擇」顯得尤為重要。ODS提供了合理且可行的技術支持，有助於提升資源利用率、改善模型品質，並在資料清理、異常檢測、主動學習、抗攻擊等領域激發更多創新應用。

總結而言，Wang等人提出的ODS為資料Shapley評估打開了一扇高效率之門，令資料價值評估不再是理論上的奢侈，而成為訓練流程中自然且實用的一環。這一突破在AI領域的資料治理與模型優化路徑中劃下重要里程碑，值得後續研究者深入探討、推廣和應用。

論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

行有餘力則以學文

2026年6月13日星期六

Data Shapley in One Training Run

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年6月13日 星期六

Data Shapley in One Training Run

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年6月13日星期六