在當前以資料驅動的機器學習領域中,了解每筆訓練資料對於最終模型績效的貢獻度,不僅是強化模型可解釋性的重要途徑,也是優化資料組合、提升訓練效率,以及合理分配版權與責任的基石。傳統的資料價值評估方法——尤其是基於 Shapley value 的資料貢獻度量化——雖然理論上精確且具備公正性,卻因需多次重新訓練模型導致計算成本高昂,難以應用於規模龐大的現代基礎模型(pretraining foundation models)。本文《Data Shapley in One Training Run》由Wang、Mittal、Song 與 Jia等人提出,榮獲 ICLR 2025 傑出論文榮譽獎,突破了上述瓶頸,开創了在單次訓練過程中即能準確量化資料貢獻的新方法,被視為資料評價及基礎模型訓練分析上的重要里程碑。
研究背景與動機
Shapley value 出自合作博弈論,旨在公平分配合作過程中各參與者的貢獻。將其應用於機器學習資料上,代表每筆資料點對模型表現的邊際貢獻,可用於資料清洗、異常偵測、版權認定、合作訓練激勵等多種情境。過去如 Data Shapley 這類方法需要訓練多次模型——每次針對不同子集的資料——因而帶來極高的計算負擔,尤其在當前深度學習模型動輒數億至數百億參數,訓練時間數天甚至數周的情況下更是無法接受。此外,傳統方法給出的資料價值是對整體訓練過程產生的模型表現的平均衡量,無法針對特定訓練過程中所得到的模型做偏向性分析。隨著基礎模型(pretrained foundation models)與大規模資料在工業與學術場景的爆炸性增長,迫切需要可擴展且精準的資料貢獻度評估方法。
核心方法與創新
本文創新之處在於提出「In-Run Data Shapley」(單次訓練中資料 Shapley 值)方法,實現了在只需一次完整模型訓練流程中,即可獲得每筆訓練資料對該模型特定最終參數的貢獻度。其核心理念如下:
- 利用訓練過程中的中間資訊:與傳統需多次重新啟動訓練的架構不同,In-Run Data Shapley 把握「梯度貢獻」與「參數更新軌跡」資訊。論文中提出巧妙的數學推導和演算法,從每一個訓練批次資料對參數優化的直接影響出發,累積估計最終模型性能變化的邊際效應。
- 高效且可伸縮的近似策略:基於理論保證的近似算法,該方法使得額外計算成本幾乎可以忽略於模型正常訓練時間中。透過精心設計的記憶體管理和數值估計,成功將計算複雜度降至可處理大型資料集和巨型模型的等級。
- 針對特定模型的資料歸因:與傳統 Data Shapley 統一分數不同,In-Run Data Shapley 明確聚焦於訓練產生的最終模型,產生的資料重要性分數更具針對性與辨識度,反映真實世界訓練過程中的個別實例影響。
方法學上,此論文對梯度估計的理論推導結合了參數空間的線性近似與隨機梯度下降(SGD)的動態追蹤,稱得上是將博弈論中的理論工具與深度學習訓練動態深度結合的傑出範例。此外,作者在算法實作中,兼顧了效能與準確度之間的平衡,確保方法既可落地實務應用,也有理論背書。
主要實驗結果
作者在多個基準和真實世界的大型訓練任務中進行實驗驗證,涵蓋不同模型架構(如 Transformer)、資料規模及任務類型。關鍵發現包括:
- 顯著降低計算成本:相較於標準的 Data Shapley 計算方法,In-Run Data Shapley 的計算時間幾乎與原本的訓練時間持平,使得在超大規模基礎模型訓練中也能實際應用。
- 保持高度一致性與準確性:與多次訓練架構計算的標準 Shapley 值結果進行比較,In-Run 方法在排序及重要性分數呈現高度一致,且有效捕捉資料異常和罕見特徵的影響力。
- 深入分析基礎模型預訓練資料貢獻:首次提供了大型預訓練資料集內各條目對模型貢獻的定量分析,揭示具體資料範疇及品質如何影響下游任務性能,為資料選擇與過濾策略提供具體依據。
- 探討生成式 AI 的版權問題:透過精確量化各資料點在生成式模型知識形成中的角色,為未來法律與道德議題的辯論提供客觀資料支持,促使產業界在尊重版權與資料貢獻認定上趨於透明化。
對 AI 領域的深遠影響
本論文的貢獻不僅在於技術上的突破,更代表了資料致能時代(data-centric AI)的關鍵前進步伐。具體來說:
- 推動可解釋性與公平性研究:準確的資料貢獻度衡量,有助釐清模型表現來自哪些訓練樣本,支持監管、除錯與公平性檢查,提升深度學習系統的透明度與信賴度。
- 啟發高效資料管理與優化流程:透過快速識別價值最高與最低的資料點,能指導資料清洗、資料增強及訓練資料設計,有助在有限資源下達成模型性能最大化。
- 影響版權與數據使用政策制定:生成式 AI 持續引發如何合法使用大量資料的爭議,In-Run Data Shapley 提供了客觀、公正的數據貢獻評估基礎,有助建立合理的補償和授權機制,促進產業與學術的健康發展。
- 促進大型基礎模型的責任訓練:資料影響力可被追蹤與量化,鼓勵訓練者對資料來源負責,打造更具社會價值與倫理考量的 AI 系統。
綜合而言,《Data Shapley in One Training Run》不僅解決了長久以來資料貢獻度評估面臨的可擴展性挑戰,也開啟了精確、快速且實務可行的新視角,期待未來在資料管理、模型訓練、AI 倫理等領域持續激盪出更多創新火花。
論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:
張貼留言