行有餘力則以學文: Data Shapley in One Training Run 深度解析：高效量化資料貢獻的新範式

隨著機器學習模型規模的快速擴張與資料量的爆炸性增加，如何量化每筆訓練資料對模型效能的具體貢獻，成為研究與實務應用中的一大難題。過去的資料歸因方法，如基於Shapley值的Data Shapley框架，雖然理論上具備完美公平分配資料價值的特性，但卻因為需要多次重訓模型，導致計算成本高昂，難以應用在大型模型或大規模資料上。ICLR 2025的Outstanding Paper Honorable Mention論文《Data Shapley in One Training Run》由Wang、Mittal、Song與Jia提出一項劃時代的解決方案——In-Run Data Shapley，成功突破過去方法的計算瓶頸，使資料歸因成為實務可能，更推動生成式 AI 與基礎模型的資料版權與品質管理進入新階段。

研究背景與動機

在機器學習的核心過程中，資料是模型性能與泛化能力的基石。理解個別資料對訓練結果的貢獻，不僅可揭示資料品質、有助於去除有害或噪聲資料，也關乎資料來源的版權歸屬、模型透明度與可解釋性。Shapley值是合作博弈論中的一項重要概念，用於公平分配合作成果；將其引入資料價值評估(Data Shapley)不失為一種理想的理論工具。

然而，現有Data Shapley計算方法需要對資料子集反覆訓練模型，計算資源需求隨資料規模和模型規模呈指數上升，致使該方法無法應用於現代深度學習基礎模型（如大型語言模型）訓練階段。更重要的是，傳統Data Shapley的歸因是針對學習演算法的整體輸出，而非特定訓練完成的模型，這無法滿足對單一模型精細分析的需求。

核心方法與創新

本論文提出的In-Run Data Shapley創新地在單次完整的模型訓練過程中，同步估算每筆資料對該最終模型的貢獻，無需額外或重複訓練，極大提升了效率與可行性。方法的核心包括：

在線估計(Data Shapley)：結合模型訓練過程中梯度信息與模型參數的演化，設計一套快速估計資料邊際貢獻的演算法。透過追踪每次參數更新對整體損失變化的影響，捕捉資料點的貢獻軌跡。
無需多次重訓：不同於傳統需針對資料子集多次模型重訓的做法，此方法可在一次完整訓練過程中即獲得Shapley值近似，大幅節省運算資源。
針對目標模型：方法專注於最終訓練完成的模型，進行精細的資料貢獻歸因，反映該具體模型的特殊性，具備更強的實際意義。
可擴展性：設計時兼顧可用於大規模深度模型與海量資料，首次使得基礎模型預訓練階段的資料貢獻評估成為可能。

主要實驗結果

論文透過多組實驗進行驗證，涵蓋自然語言處理與計算機視覺任務，更進一步探討基礎模型預訓練數據的貢獻分布。實驗亮點包括：

效率提升明顯：與先前Data Shapley方法相比，In-Run Data Shapley在大型模型上的運行時間幾乎無額外負擔，僅增加輕微的運算複雜度，顯著降低計算成本。
貢獻估計準確：通過對比傳統多次重訓方法的Shapley值結果，In-Run估計在多個資料集和模型架構中展現出高度的一致性與穩定性。
案例分析新穎：對基礎模型預訓練資料進行貢獻分析揭示了關鍵數據子集的顯著性，並發現部分資料對模型泛化影響有限甚至負面，為資料精選與清理提供依據。

對 AI 領域的深遠影響

In-Run Data Shapley在理論與實務兩方面帶來深遠且多維度的影響：

資料版權與倫理：隨著生成式 AI 模型的崛起，訓練資料的版權爭議日益突出。精確量化資料對模型的影響有助於界定資料貢獻，支持合理的智慧財產權歸屬，為法律判例與政策制定提供科學依據。
資料質量提升與模型健壯性：藉由識別出對模型提升最關鍵或有害的資料，本方法幫助研究者與工程師優化資料庫結構，去除有害資料，提高模型的穩定性與泛化能力。
大規模基礎模型訓練管理：對於億萬參數的基礎模型，過去難以追蹤資料功效。此方法的可行性解決了監測與優化預訓練資料分布的瓶頸，促進基礎模型研發與商品化。
推動模型透明度與可解釋AI：資料貢獻的量化近一步促成模型訓練過程的可追蹤性，為可解釋 AI 建立一層重要支柱，有助於信賴度提升與風險控管。

綜上所述，《Data Shapley in One Training Run》不僅在技術上提出創新的高效估計方法，更為後續人工智慧開發搭建了關鍵橋梁。未來，這項方法有望廣泛應用於超大尺度模型訓練的資料審計、策略優化與法規遵循中，成為 AI 資料價值評估的標竿。

論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

行有餘力則以學文

常用資訊速查

2026年5月31日星期日

Data Shapley in One Training Run 深度解析：高效量化資料貢獻的新範式

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

2026年5月31日 星期日

Data Shapley in One Training Run 深度解析：高效量化資料貢獻的新範式

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

2026年5月31日星期日