2026年5月19日 星期二

Data Shapley in One Training Run 深度解析

在現代機器學習中,數據的重要性不言而喻,尤其是在大規模深度學習模型的訓練階段,了解每筆訓練數據對模型最終表現的貢獻,對於數據篩選、數據增強、模型調試以至於法律層面的資料版權問題,都有極為重要的意義。Data Shapley作為一種基於博弈論思想的數據貢獻度評估方法,試圖以“公平分配”理念衡量各訓練樣本的價值,然而過去的方法因為需要對多個子集重新訓練模型,計算成本極為高昂,無法擴展到現今龐大且複雜的基礎模型(foundation models)。ICLR 2025年 Wang 等人發表的這篇獲獎論文《Data Shapley in One Training Run》,提出了一項劃時代的突破性方法,讓數據貢獻度評估變得極具可行性及實用性,為整個AI領域帶來深遠影響。

研究背景與動機

傳統Data Shapley基於假設性將資料拆分成各種子集,然後各別訓練模型來觀察性能差異,其目標是量化每筆數據加入對模型表現的改善。但這種基於多次重訓的方案,對於大型數據集與現代深度神經網絡模型來說,計算成本呈現指數級增長,極大限制了實際應用,尤其在像GPT這類參數量龐大的基礎模型預訓練階段根本無法推行。此外,現有Data Shapley方法無法針對單一特定模型的訓練過程進行歸因,這意味著它們帶來的貢獻評估是模型訓練結果的一個平均化視角,進一步限制了對單次訓練結果的解釋與分析。

因此,本論文的主要研究動機在於如何突破此計算瓶頸,做到不需多次重訓,即可直接從一次訓練過程中提取每筆數據對該特定模型的貢獻度評估,使得Data Shapley的實際應用範圍大幅擴展。

核心方法與創新

論文提出了所謂的 In-Run Data Shapley 技術,該方法在單次模型訓練過程中即刻估計數據貢獻度,避免了傳統多輪重訓的計算負擔。其關鍵核心創新包括:

  • 利用訓練過程中的梯度追蹤及模型參數變化:作者透過妙用訓練動態數據,例如每輪優化中不同數據樣本對模型參數更新的貢獻,構建一套無需複製模型、重複訓練的因果歸因機制。
  • 「一次訓練即獲數據貢獻」的設計:這套方法巧妙整合了深度學習優化的梯度信息與博弈論的Shapley值理念,實際上在一次標準的訓練過程中,邊計算損失與梯度邊累計數據貢獻估計,大幅減少額外的時間成本。
  • 普適性與可擴展性的實現:該框架能無縫兼容多種神經網絡架構和優化算法,並且能運用於從小型到超大規模基礎模型的訓練,這在以往多次模型重訓的Data Shapley方法中是難以望其項背的。

主要實驗結果

論文通過多組實驗驗證In-Run Data Shapley的有效性與效率:

  • 效率提升:與傳統多輪重訓的Data Shapley相比,本方法在大多數情況下額外的訓練時間開銷可以忽略不計,完成一次完整的貢獻度估計幾乎與單次模型訓練時間相當,開創了數據歸因的高效新紀元。
  • 貢獻度評估準確性:與傳統重訓方法計算的Shapley值高度一致,說明在不犧牲準確度的前提下大幅降低了計算成本。
  • 對基礎模型預訓練的首次深度分析:作者利用此技術首次在大規模Transformer類基礎模型預訓練中,分解不同數據子集及語料來源對模型質量的具體貢獻,提出了關於數據品質與模型泛化的全新見解。

此外,實驗還涵蓋了資料子集篩選、噪聲數據偵測與去除、以及合成數據效益分析等,展示了方法在實際應用場景中的廣泛潛力。

對 AI 領域的深遠影響

本論文技術的突破,不僅將數據貢獻評估從一個理論工具華麗轉身為可操作、可實踐的工程方案,更為AI領域帶來多方面的深遠影響:

  1. 促進數據質量管理與優化:深度解剖每筆數據的價值,使得數據清理、篩選、加權等工作能精準施行,極大提升訓練數據的利用效率與模型性能。
  2. 提升模型訓練的可解釋性:在當前模型愈來愈大型、愈趨黑盒的趨勢下,In-Run Data Shapley提供了對模型訓練過程中數據影響的可量化解讀,有助於研究者和工程師理解數據驅動下的模型行為。
  3. 支援法律與倫理層面:生成式AI興起後,資料使用的版權與歸因問題逐漸成為焦點。能夠量化特定資料對模型的實際貢獻,有望成為衡量授權合理性與歸責的重要技術依據。
  4. 推動基礎模型研發流程創新:過去基礎模型龐大而複雜的預訓練資料管理多屬黑盒,本方法能揭示不同語料來源及數據類型在模型表現上的實質作用,為未來大型模型的資料蒐集、標準制定和精細化調教指明方向。
  5. 推進資料價值科學化:將數據視為可計量、可交易的資產,In-Run Data Shapley為未來數據市場、數據版權交易及資料驅動的合約提供了科學基礎。

總結

Wang 等人於 ICLR 2025 所提出的《Data Shapley in One Training Run》論文,以突破性的視角和技術,成功解決了傳統Data Shapley計算昂貴且難以應用大規模模型的痛點。其核心創新在於在一次模型訓練過程中即估算數據貢獻度,實現了效率與準確度兼具的數據歸因機制。實驗中不僅展示其在多種機器學習任務上的優異效能,更首次將此技術應用於大型基礎模型預訓練的數據分析,開創了數據貢獻評估的新局面。

此技術不只推動學術研究的前沿,更具實際工程與產業應用價值,將促進模型訓練、數據管理、法律倫理和產業標準多個層面的發展,是當前AI數據價值解析領域的一大里程碑。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:

張貼留言