隨著機器學習模型規模不斷擴大,尤其是基礎模型(foundation models)的預訓練規模達到數百億、數千億參數,如何量化訓練資料對模型性能的具體貢獻,成為近年來一項極具挑戰性的研究課題。Data Shapley in One Training Run這篇於 ICLR 2025 發表並獲得優秀論文表揚(Outstanding Paper Honorable Mention)的論文,由 Wang、Mittal、Song、Jia 等人提出,針對過去 Data Shapley 法在實務應用上的瓶頸,開發出一套革命性的「In-Run Data Shapley」方法,大幅降低資料歸因的計算複雜度,甚至只需一次訓練流程即可完成資料貢獻度評估,為資料價值衡量與管理帶來深刻影響。
研究背景與動機
資料在機器學習系統中是不可或缺的核心資產,然而不同行為的資料對模型績效的貢獻大小並不均等。Data Shapley是一種基於合作博弈論的理論框架,用以公平且原則性地分配資料點對模型整體效能提升的貢獻值。前人透過從原訓練集合中抽取不同子集並反覆訓練模型,以計算每筆資料對績效提升的邊際貢獻,進而合成 Shapley Value,為資料價值評估奠定理論基礎。
然而,這類方法面臨兩大重大限制:一是計算量極端龐大,因需多次重新訓練模型於各種資料子集合上,導致難以應用於大型神經網路及基礎模型預訓練;二是傳統Data Shapley必須假設模型訓練過程的隨機性及梯度優化路徑不變,取得的資料貢獻分數在不同訓練執行間並無差異,因此難以針對從單次訓練得到的特定模型做精確的資料歸因。
這些限制大幅阻礙了Data Shapley在產業與學術上的實際應用,迫切需要一種高效、可擴展、且具備針對性歸因能力的資料貢獻度評估新方案。
核心方法與創新
本論文提出的In-Run Data Shapley為一套創新技術,核心突破在於「將資料貢獻度計算直接嵌入模型的單次訓練過程中」,取代過去多次迭代重新訓練的模式。具體策略包括:
- 動態權重調整機制:在模型訓練的梯度更新階段,作者設計了一組可微分的訊號,藉此追蹤每筆資料梯度在參數更新中的實際影響量,這使得資料價值能夠在訓練過程中即時反映並累積,而非訓練結束後離線計算。
- 理論嚴謹的Shapley值近似:透過數學推導,保證該方法所得資料貢獻分數可近似於標準Data Shapley分數,即保持了公平性及原則性的理論保障,同時消弭了多次訓練冗餘運算。
- 可擴展的實現架構:透過巧妙的演算法設計,該方法在額外計算資源上的成本甚微,與標準模型訓練的計算量幾乎相當,從而破除過去Data Shapley在大規模數據與深度模型上的瓶頸。
換言之,In-Run Data Shapley完成了兩項重大挑戰:一,能夠在單次訓練流程中對資料做出精確且忠實的貢獻度評估;二,保留了Shapley特有的公平性質及理論嚴謹度,但計算成本卻大幅降低,使得應用於基礎模型(如Transformer大型語言模型)的預訓練變得可行。
主要實驗結果
論文中作者透過大量實驗全面驗證該方法的有效性與實用性:
- 小型神經網路與資料集測試:在CIFAR-10、MNIST等經典資料集上,In-Run Data Shapley所估計的資料貢獻度高度逼近傳統平均過多次重新訓練計算的Data Shapley值,且計算速度快數十倍到上百倍。
- 大型基礎模型預訓練:首次實現對GPT等大型Transformer模型預訓練資料的即時貢獻分析,揭露不同資料子集對最終模型之文本生成質量及多樣性的貢獻差異。這是歷史上首見的將資料歸因直接整合在基礎模型巨量訓練中的嘗試。
- 資料篩選與版權討論案例:研究並展示了如何依據In-Run Data Shapley結果,針對低質量、偏頗或可能涉及複製爭議之資料做出篩選,提高預訓練資料庫的整體品質,並對生成式 AI 領域的數據版權議題提出客觀依據。
對 AI 領域的深遠影響
本論文的提出,帶來多方面長遠影響:
- 理論與實務的結合:過去Data Shapley理論美觀卻難落地,此次方法突破了計算和靈活性限制,促使資料價值評估從理論走向產業應用。
- 大規模模型公正與可解釋性:隨著基礎模型成為 AI 發展核心,理解訓練資料貢獻成為用戶信任、模型審計與問責的基礎。In-Run Data Shapley提供了可行且精準的工具,幫助開發者釐清數據來源與影響,增進 AI 系統的透明度與道德規範。
- 資料庫管理與優化:從資料篩選、清洗、增強到版權管理層面,優化預訓練資料集可以直接提升模型效能與公平性。新方法可實踐自動化、細粒度的資料品質管理,對資料治理尤為重要。
- 版權與法律議題:數據貢獻度量化為生成式 AI 訓練資料版權分配提供了理論基礎,有助於未來建立公平的版權補償與責任歸屬體系,促使產業生態更加健康。
綜合來看,「Data Shapley in One Training Run」成功突破長期以來資料歸因面臨的計算瓶頸,以其創新理論與工程實現,為 AI 領域帶來一種全新且極具實用價值的資料評估範式。無論是學術研究者或工業界工程師,都能基於此架構,在未來大型模型開發與資料管理中大幅提升精度與效率,並推動生成式 AI 及數據版權等重要議題的進一步完善與規範。
論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:
張貼留言