常用資訊速查

2026年4月6日 星期一

Data Shapley in One Training Run 獲獎深度簡介

隨著機器學習在各領域大規模應用,理解資料對模型訓練的重要性越發關鍵。Data Shapley作為一種理論嚴謹的資料貢獻度衡量工具,能量化單筆資料對模型表現的具體影響。然而,以往的方法需透過多次重訓模型於不同資料子集,計算成本極高,不但難以用於大型模型,且無法針對特定訓練結果執行精準的資料歸因。Wang 等人在 ICLR 2025 發表的論文《Data Shapley in One Training Run》突破此瓶頸,推出了革命性的方法:只需一輪訓練即可完成資料貢獻度評估,且效率幾乎與一般模型訓練同級,進而首度實現基礎模型(foundation model)預訓練階段的大規模資料歸因,獲得會議傑出論文榮譽提名,成為生成式 AI 及資料管理的重要里程碑。

研究背景與動機

傳統深度學習模型強烈依賴龐大且多樣化的資料集,然而資料並非皆等價:部分資料可能極具價值,有助提升模型泛化能力;反之,部分數據可能帶來負效應或偏誤。因應這種實務需求,Data Shapley 利用合作博弈理論中的“Shapley value”概念,嘗試公平分配每筆資料對模型整體性能的邊際貢獻值。此理論框架不僅合理且具備唯一性,但現行「離線」Data Shapley 計算需反覆移除或加入資料,再重複訓練多次模型,計算成本呈爆炸式增加。

面對大型深度神經網絡,尤其是需要數百至數千 GPU 小時預訓練的基礎模型,傳統 Data Shapley 方法極難實行。此外,以往方法會產生資料貢獻分數,卻無法反映特定模型訓練過程的個別差異,意味其評估結果只是資料本身的平均貢獻度,而非針對「某次訓練中實際得到的模型」做出精確歸因。此一缺陷限制了資料審查、版權鑑定及模型微調等多項應用發展。

核心方法與創新

本論文提出的 In-Run Data Shapley,針對上述問題,開創性地僅以 一次模型訓練,即得到明確的資料貢獻值估計。此方法的核心在於整合了新穎訓練過程追蹤與動態評估技術,在前向和反向傳播間嵌入資料影響力分析,實時累積資料對模型參數影響的梯度跡象。透過巧妙利用隨訓練時間變化而更新的參數空間信息,與資料對損失函數的敏感度,In-Run Data Shapley 能推估每筆訓練資料的「增量貢獻」,避免傳統評分需反覆重新初始化模型的計算負擔。

具體實作上,方法利用 模型內部對資料影響的微分訊號,像是資料如何逐層改變參數更新路徑,在單次訓練流程中整合這些影響分數。此跨參數與時間軸的追蹤策略,配合理論上的估計修正機制,使得資料貢獻得分達到高準確且穩定的估算質量。此外,作者對演算法設計持續精簡,確保額外計算成本微乎其微,近乎將資料歸因整合入標準訓練過程,避免二次運算。

主要實驗結果

論文中,作者透過多組涵蓋小型與大型模型的實驗,驗證 In-Run Data Shapley 在準確性與效率上的優越表現。與傳統 Shapley Value 計算方法相比,新方法在資料重要性排序及貢獻度評估上高度一致,皮爾森相關係數超過0.9,但運算時間卻減少至傳統的千分之一。特別是在大型基礎模型 GPT-2 的預訓練階段首次實驗,成功在一次訓練流程內完成對數百萬筆資料的貢獻度評估,這種規模先前不可想像。

另外,藉由對不同類型資料(例如新聞、百科、網路文本)對模型性能影響的分析,作者發現某些資料集段落對預訓練具有顯著正貢獻,而另一些資料中則隱含潛在風險,如資訊過時或有害偏誤。此外,應用演算法辨識出對下游任務效能關鍵的資料子集,為資料過濾、清理策略提供理論依據。這些案例足以顯示 In-Run Data Shapley 不僅是一種理論工具,更具備極強的實務價值。

對 AI 領域的深遠影響

In-Run Data Shapley 解決了資料貢獻估計的兩大核心瓶頸——高計算成本與缺乏針對特定模型的精確歸因——從而徹底改變了資料價值評估的現場實務。此技術的垂直突破,讓研究者及業界首度能在基礎模型的龐大預訓練環境中執行細粒度的資料審計與選擇,不僅提升模型品質,也預示更透明、公平的資料使用規範。

另一方面,隨著生成式 AI 的崛起,資料來源的版權爭議日益突出。In-Run Data Shapley 能夠精確量化每筆資料對生成模型的影響,成為未來著作權判定、資料合規審查的重要技術基石。此外,該方法彈性極高,能融入現有訓練架構,促使資料集中管理和動態更新策略的可行性大幅提升,進而推動 AI 訓練從資料層面進行更有意識、可控的優化。

總括來說,《Data Shapley in One Training Run》不僅是資料價值理解領域的技術飛躍,更是推動 AI 可解釋性、公平性及責任性的關鍵突破,為更透明、可審計的人工智慧生態系鋪路。未來在 AI 法規制定、數據治理及機器學習模型優化方面,這項創新無疑將成為核心參考標準,深刻影響學術與產業的未來發展路徑。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:

張貼留言