常用資訊速查

2026年6月19日 星期五

Data Shapley in One Training Run:打造高效且精準的資料貢獻度評估新境界

隨著機器學習模型規模的爆炸性增長,尤其是大型基礎模型(foundation models)在自然語言處理、計算機視覺等領域的廣泛應用,解析各筆訓練資料對模型性能的具體貢獻,已成為一項極具挑戰且價值深遠的研究課題。資料貢獻度評估,不僅有助於揭示模型訓練過程的透明度與解釋性,也在資料精選、資料授權與版權爭議中,扮演關鍵角色。作為其中的理論基礎與代表方法,「Data Shapley」基於合作博弈論中的 Shapley Value 提出,透過精確分配每筆資料對模型預測性能的增益,理論上提供了公平且一致的資料評分機制。

然而,原始的 Data Shapley 方法必須對不同資料子集分別重新訓練模型,耗費極大計算資源,難以適用於數以百萬、千萬計訓練樣本及龐大模型結構。與此同時,傳統方法產生的資料貢獻分數,是對訓練過程所有可能模型的平均視角,不針對特定最終模型,因此失去了與「特定訓練結果」精準連結的能力,這在實務應用中限制了對單次訓練模型的解釋與優化價值。

研究動機

Wang 等人在 ICLR 2025 發表的《Data Shapley in One Training Run》精準針對上述兩大瓶頸提出革命性解決方案︰

  • 如何免去多次重複訓練,實現資料貢獻評估的爆炸性運算瓶頸?
  • 如何杜絕平均化思維,直接針對「同一次訓練所得目標模型」進行資料影響量化?

他們提出全新方法「In-Run Data Shapley」,能在一次訓練過程中同步完成資料貢獻評估,不僅大幅降低計算成本,甚至使得此前無法想像的基礎模型大規模預訓練階段資料貢獻分析成為可能。

核心方法與創新

本論文核心貢獻在於改寫 Data Shapley 評估的計算流程與數學架構,引入了「In-Run」的概念︰在模型由初始到收斂的同一訓練過程中,捕捉並整合資料對模型梯度更新的即時貢獻,取代傳統需反覆重訓的「外部估計」方式。

技術上,作者利用前沿的影響函數 (influence functions) 與梯度分解技術,巧妙化約資料對模型參數的貢獻表示,建立了一種一次訓練即能動態累積各筆資料效用的框架。此外,他們設計配套的演算法優化策略,使得該方法在實作層面可與標準訓練流程緊密結合,幾乎無額外運算延遲。

其中創新重點包括:

  • 目標模型特定的資料貢獻度量:不再是取多次訓練平均,而是直接針對一次訓練產生的終模型分配分數,大幅提升評估的針對性與意義。
  • 計算資源效率革命:以單次標準訓練為基礎,附帶微量額外計算,在相同 GPU 時間內即可完成資料公允度分析,突破過去方法無法拓展至大規模數據與模型的天花板。
  • 靈活性與通用性:架構可適用多種模型及訓練任務,無需針對特定資料或網絡架構進行調整。

主要實驗結果

論文展開多組豐富實驗來驗證方法有效性與高效性,包括但不限於:

  1. 標準數據集上的比較實驗:與經典 Data Shapley 以及替代資料貢獻度指標如Influence Functions進行定量評估,結果顯示 In-Run Data Shapley 在保持高度一致性的同時,運算時間縮短數十倍至數百倍。
  2. 大規模基礎模型預訓練案例:首次實現對數百萬到千萬級別資料集的 Shapley-value 計算,透過大量實驗揭露關鍵資料對最終大型模型性能的細微影響,進一步提供了針對資料選取和優化的重要洞見。
  3. 版權與資料授權議題探索:透過測試不同資料來源對生成式 AI 產出質量的貢獻比例,論文補充說明這套方法助力於解決日益嚴峻的智慧財產權歸屬和資料合規問題。

對 AI 領域的深遠影響

這篇論文的貢獻不僅體現在技術創新層面,更具有深刻的應用及倫理意義。機器學習作為資料驅動的技術,能公平、有效地識別每筆資料的重要性,直接影響模型訓練策略、資料品質控制,甚至促動 AI 產業對於資料來源的責任承擔,提升整個生態鏈的透明度與信任度。

特別是在生成式模型盛行、數據授權與版權爭議日益焦慮的當下,In-Run Data Shapley 提供了一套切實可行的技術路徑,幫助業界及學術界共同建立資料價值評估標準,降低非法資料利用風險,也強化了預訓練階段的數據篩選與管理能力。

此外,這套方法的高效性和可擴展性,意味着未來我們可以更頻繁、更細緻地反思與調整訓練資料,推動自動化資料整理與優化,促進模型訓練從「大而全」轉向「精而準」,提升模型整體的可靠性與泛化能力。

總結

ICLR 2025 的《Data Shapley in One Training Run》以其在計算效率與評估精度上的雙重突破,為資料貢獻度評估樹立了新典範。作者巧妙地融合理論與實作,擺脫了傳統方法昂貴的重訓限制,使得基礎模型的大規模資料貢獻分析成為可能。論文的技術創新為機器學習社群提供了強有力的工具,也為未來資料倫理與法律框架的建立注入了實證基礎,堪稱當代資料價值評估領域的重要里程碑。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:

張貼留言