行有餘力則以學文: Data Shapley in One Training Run

2026年5月25日星期一

Data Shapley in One Training Run — 深度解讀與技術剖析

在當前機器學習與深度學習技術快速發展的背景下，瞭解訓練資料對最終模型性能的影響變得越來越重要。資料品質與來源直接關係到模型的可靠性、泛化能力以及公平性，尤其在尖端的基礎模型（foundation model）訓練階段，更需要準確評估不同資料樣本的貢獻。

一、研究背景與動機

「Data Shapley」是一種基於博弈論中夏普利值（Shapley value）的資料訂價與貢獻評估方法，能理論化地分配每筆訓練資料對模型整體性能提升的貢獻值。傳統的 Data Shapley 計算需重複在各種資料子集上重新訓練模型，產生極大的計算成本與時間耗費，導致其難以應用於規模龐大的深度神經網路與基礎模型訓練。此外，既有的 Data Shapley 方法在模型訓練過程中無法針對單一特定模型（即一趟訓練完成的模型）給出精細資料貢獻評估，其結果往往是某個學習算法下所有可能模型的平均效應，無法精準反映特定實例的資料重要性。

本論文 Data Shapley in One Training Run（ICLR 2025 優秀論文提名）由 Wang、Mittal、Song 及 Jia 共同提出，針對此瓶頸問題開發出創新的「In-Run Data Shapley」方法，能在一次完整訓練中直接、有效地估計各訓練資料的 Shapley 值，顯著降低計算負擔、提升適用性，為資料貢獻解釋的可擴展性開啟新篇章。

二、核心方法與技術創新

作者的核心突破點在於設計一種可在線運算且低成本的 Shapley 值估計框架，將資料貢獻計算整合入模型的單次「訓練過程（training run）」中，免去傳統需對不同資料子集重複訓練多次的昂貴計算。

具體而言，該方法基於以下幾項關鍵技術創新：

梯度跟蹤與模型參數變化敏感分析：作者觀察到，在標準梯度下降訓練過程中，不同資料批次（mini-batches）對模型參數更新的影響，反映了該資料對模型性能的貢獻。透過精緻化的梯度分析，量化每筆資料影響模型參數行為的強度與方向。
內存高效的貢獻值累積機制：在訓練迭代過程中，利用增量式演算法累積資料刺激模型性能提升的「邊際貢獻」，並同步更新資料的估計「Data Shapley」值，整個過程不需重覆多次訓練。
目標模型專屬的貢獻計算：傳統方法多對多種潛在模型給出平均或期望貢獻，本方法直接針對單次訓練所得的具體模型輸出資料 Shapley 分數，提升解釋的針對性與實用性。
理論與實驗支柱：論文提供了嚴謹的理論分析，證明內部估計機制的偏差和方差可控，並指出該演算法的計算成本僅在標準訓練時間上小幅增加，使其具備實務落地的可行性。

三、主要實驗結果與驗證

為驗證方法的有效性與效率，作者展開多組包含大型語言模型（LLM）基礎預訓練及視覺任務的實驗：

效能對比：In-Run Data Shapley 在估計資料貢獻方面表現與傳統方法（例如加權重訓練、蒙地卡羅采樣等）相當，但訓練時間增幅極低，通常低於 5%。此突破使其成為目前唯一可應付基礎模型預訓練階段的大規模資料貢獻分析。
資料重要性排序與刪除實驗：實驗中，依 Shapley 值優先移除不重要或有害資料，模型性能下降更慢，證明該指標確實反應資料對模型貢獻的真實影響力。
多樣性資料集貢獻洞見：針對各類多元資料來源，論文展示 In-Run Data Shapley 所給出的細緻貢獻評估，揭示一部分資料對通用預訓練的核心影響，以及部分資料存在潛在版權爭議和偏見風險。

四、對 AI 領域的深遠影響與未來展望

本論文開創性的「一次訓練就算出Data Shapley」方法，在理論及實踐層面均具有重要意義：

改變資料價值評估與版權管理策略：基礎模型的巨大數據需求帶來資料出處複雜多元的挑戰。作者的方法令資料貢獻度可被量化與追蹤，支撐版權歸屬判斷與合規數據篩選，有助於促進生成式 AI 領域的負責任發展。
資料質量與偏見監控新工具：隨著模型規模與應用普及，若能針對特定資料源快速評估其影響，將有利於即時剔除有害數據、糾正偏見，從而提升模型公平性與透明度。
促進自適應與高效資料篩選：資料工程師與研究者可根據 Shapley 分數指導資料選擇、增量更新與微調策略，實現優化訓練效率與提升模型表現的雙重目標。
學術與產業結合的重要橋樑：透過低成本且目標模型專屬的資料貢獻計算，該方法有潛力被大規模工業界模型訓練所採用，推動理論到實務的多方價值創造。

總結來說，Wang 等人提出的 In-Run Data Shapley 不僅突破了傳統資料貢獻分析在計算上的瓶頸，也為深度學習中資料的透明化使用與責任 AI 奠定關鍵基石。隨著基礎模型持續飛速擴展，這套技術將成為理解、管理與優化訓練數據不可或缺的核心工具之一，預計會引領後續一系列資料效用研究與實踐革新。

論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011