常用資訊速查

2026年5月31日 星期日

Data Shapley in One Training Run 深度解析:高效量化資料貢獻的新範式

隨著機器學習模型規模的快速擴張與資料量的爆炸性增加,如何量化每筆訓練資料對模型效能的具體貢獻,成為研究與實務應用中的一大難題。過去的資料歸因方法,如基於Shapley值的Data Shapley框架,雖然理論上具備完美公平分配資料價值的特性,但卻因為需要多次重訓模型,導致計算成本高昂,難以應用在大型模型或大規模資料上。ICLR 2025的Outstanding Paper Honorable Mention論文《Data Shapley in One Training Run》由Wang、Mittal、Song與Jia提出一項劃時代的解決方案——In-Run Data Shapley,成功突破過去方法的計算瓶頸,使資料歸因成為實務可能,更推動生成式 AI 與基礎模型的資料版權與品質管理進入新階段。

研究背景與動機

在機器學習的核心過程中,資料是模型性能與泛化能力的基石。理解個別資料對訓練結果的貢獻,不僅可揭示資料品質、有助於去除有害或噪聲資料,也關乎資料來源的版權歸屬、模型透明度與可解釋性。Shapley值是合作博弈論中的一項重要概念,用於公平分配合作成果;將其引入資料價值評估(Data Shapley)不失為一種理想的理論工具。

然而,現有Data Shapley計算方法需要對資料子集反覆訓練模型,計算資源需求隨資料規模和模型規模呈指數上升,致使該方法無法應用於現代深度學習基礎模型(如大型語言模型)訓練階段。更重要的是,傳統Data Shapley的歸因是針對學習演算法的整體輸出,而非特定訓練完成的模型,這無法滿足對單一模型精細分析的需求。

核心方法與創新

本論文提出的In-Run Data Shapley創新地在單次完整的模型訓練過程中,同步估算每筆資料對該最終模型的貢獻,無需額外或重複訓練,極大提升了效率與可行性。方法的核心包括:

  • 在線估計(Data Shapley):結合模型訓練過程中梯度信息與模型參數的演化,設計一套快速估計資料邊際貢獻的演算法。透過追踪每次參數更新對整體損失變化的影響,捕捉資料點的貢獻軌跡。
  • 無需多次重訓:不同於傳統需針對資料子集多次模型重訓的做法,此方法可在一次完整訓練過程中即獲得Shapley值近似,大幅節省運算資源。
  • 針對目標模型:方法專注於最終訓練完成的模型,進行精細的資料貢獻歸因,反映該具體模型的特殊性,具備更強的實際意義。
  • 可擴展性:設計時兼顧可用於大規模深度模型與海量資料,首次使得基礎模型預訓練階段的資料貢獻評估成為可能。

主要實驗結果

論文透過多組實驗進行驗證,涵蓋自然語言處理與計算機視覺任務,更進一步探討基礎模型預訓練數據的貢獻分布。實驗亮點包括:

  • 效率提升明顯:與先前Data Shapley方法相比,In-Run Data Shapley在大型模型上的運行時間幾乎無額外負擔,僅增加輕微的運算複雜度,顯著降低計算成本。
  • 貢獻估計準確:通過對比傳統多次重訓方法的Shapley值結果,In-Run估計在多個資料集和模型架構中展現出高度的一致性與穩定性。
  • 案例分析新穎:對基礎模型預訓練資料進行貢獻分析揭示了關鍵數據子集的顯著性,並發現部分資料對模型泛化影響有限甚至負面,為資料精選與清理提供依據。

對 AI 領域的深遠影響

In-Run Data Shapley在理論與實務兩方面帶來深遠且多維度的影響:

  1. 資料版權與倫理:隨著生成式 AI 模型的崛起,訓練資料的版權爭議日益突出。精確量化資料對模型的影響有助於界定資料貢獻,支持合理的智慧財產權歸屬,為法律判例與政策制定提供科學依據。
  2. 資料質量提升與模型健壯性:藉由識別出對模型提升最關鍵或有害的資料,本方法幫助研究者與工程師優化資料庫結構,去除有害資料,提高模型的穩定性與泛化能力。
  3. 大規模基礎模型訓練管理:對於億萬參數的基礎模型,過去難以追蹤資料功效。此方法的可行性解決了監測與優化預訓練資料分布的瓶頸,促進基礎模型研發與商品化。
  4. 推動模型透明度與可解釋AI:資料貢獻的量化近一步促成模型訓練過程的可追蹤性,為可解釋 AI 建立一層重要支柱,有助於信賴度提升與風險控管。

綜上所述,《Data Shapley in One Training Run》不僅在技術上提出創新的高效估計方法,更為後續人工智慧開發搭建了關鍵橋梁。未來,這項方法有望廣泛應用於超大尺度模型訓練的資料審計、策略優化與法規遵循中,成為 AI 資料價值評估的標竿。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:

張貼留言