2026年3月29日 星期日

Data Shapley in One Training Run 深度解析:單次訓練完成資料價值評估的新範式

在當代機器學習尤其是大規模深度學習模型的發展浪潮中,了解訓練資料對最終模型性能的貢獻成為一個重要課題。資料的品質好壞、其對模型表現的實際影響,甚至背後的法律與版權問題,都促使研究者探尋精細且可解釋的資料貢獻評估方法。

研究背景與動機

「Data Shapley」作為一套理論上嚴謹的資料貢獻度衡量框架,基於博弈論中 Shapley value 的概念,能夠公平地分配不同訓練樣本對模型性能的貢獻。然而,傳統 Data Shapley 方法需要針對訓練資料不同子集重複訓練許多模型,計算資源消耗巨大,且隨模型與資料規模劇增,計算成本呈指數級增長,幾乎無法應用於現今大型模型如基礎模型(foundation models)的訓練過程。

更重要的是,既有方法通常只評估同一訓練算法下所有可能模型的平均貢獻,無法聚焦於單次特定訓練執行(single run)產生的目標模型,導致在實際運用時,無法準確反映具體模型對各筆資料的獨特依賴與敏感性。

因此,Wang 等人在 ICLR 2025 發表的這篇榮獲 Outstanding Paper Honorable Mention 的論文提出創新性的「In-Run Data Shapley」,旨在解決上述瓶頸,在單次訓練過程中即高效估算資料貢獻,拓展資料定價、清理、版權鑑定等多方面應用可能性。

核心方法與創新點

本論文的核心貢獻,是提出一種基於「單次訓練流程中即時計算」資料貢獻的方法,簡稱 In-Run Data Shapley。其關鍵設計包括:

  • 資料貢獻嵌入於單次梯度更新階段:與傳統需要訓練多個子模型的重訓方式不同,作者利用模型訓練過程中每一步梯度更新的訊息,透過數學推導與近似技術,估計每筆資料對最終模型參數的邊際影響。這大幅降低計算成本。
  • 採用近似策略結合神經網路力學:基於梯度流動與模型參數變化的敏感度分析,In-Run Data Shapley 透過有效的數值方法及隨機近似,得到穩定而準確的 Shapley 價值估計,而不需多次模型重新訓練。
  • 與標準訓練時間相近的低額外開銷:此方法最有效率的版本,在訓練過程中只需輕微額外的計算,幾乎等同於正常模型訓練時間,意味著可直接應用於產業中龐大基礎模型的預訓練階段。
  • 支持目標模型專屬貢獻分配:不同於傳統意義上與訓練流程及隨機種子無關的靜態資料貢獻評估,In-Run Data Shapley 是針對特定訓練執行所得的唯一模型,以捕捉模型自身的獨特性,實現細緻的資料影響力歸因。

主要實驗結果

作者在多項實驗中展現了 In-Run Data Shapley 的優勢:

  • 效率實測:在多種資料集與模型架構(包括圖像分類和語言模型)上,該方法相較於傳統 Data Shapley,計算時間縮短數量級,且成功做到在單次訓練完成貢獻值估算。
  • 精度與合理性驗證:透過人工合成資料以及帶控制的刪除/加入樣本實驗,證實 In-Run Data Shapley 對於模型性能的敏感度評估與傳統多次重訓方式保持高度一致,顯示其估計結果在理論與實務間具備良好一致性。
  • 基礎模型預訓練案例:論文首度展示應用於大型基礎模型的預訓練過程,分析不同影像與文字資料對模型表現及泛化能力的輸入貢獻,揭示多源多樣訓練資料在模型力學中的角色與重要性。
  • 法律與倫理層面應用:論文亦探討資料貢獻的定量化如何幫助判斷生成式 AI 輸出的版權歸屬,並輔助訓練資料集的調整、淨化,為 AI 產業提出潛在的監管與合規工具。

對 AI 領域的深遠影響

In-Run Data Shapley 的提出,意義深遠且多面向:

首先,它成功跨越了傳統資料價值評估方法因計算瓶頸難以實際應用於大規模模型的障礙,為基礎模型等龐大系統的資料科學分析開啟大門。隨著大模型訓練成本與資料多樣性攀升,能直觀清楚地量化每份資料的貢獻,將大幅提升模型訓練流程的透明度與效率。

其次,該技術擴展了資料經濟範疇,可以用於資料商業化、合理分潤及公平補償的計算基礎,減少資料提供者與模型開發者間的信任障礙,促進整個生態系的健康發展。

再者,在生成式 AI 快速崛起、數據侵權爭議頻傳的大環境下,透過精細化資料貢獻定義,In-Run Data Shapley 提供一條可行路徑,幫助界定訓練資料對生成內容的實際影響,從而支持更合理的著作權規範與審核機制。

最後,從技術層面來看,此論文契合了整體 AI 解釋性與可追溯性的大趨勢,為模型訓練過程中的「數據可解釋 AI」築起基礎,對未來自動化資料管理、模型診斷與優化均有助力。

結語

總體而言,ICLR 2025 上 Wang 等人提出的「Data Shapley in One Training Run」不僅在理論打造與演算法實作面帶來突破,更在大型模型與生成式 AI 的實務應用中孕育巨大潛力。其單次訓練即可精準估算資料價值的創新方法,將成為未來資料驅動 AI 發展的一項重要工具與研究方向。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:

張貼留言