在現代機器學習發展中,大規模資料的價值分配問題日益受到關注。尤其當模型越來越依賴龐大且多樣的訓練資料時,如何合理衡量每筆資料對模型性能的貢獻,已成為理論與實務界的重要挑戰。Data Shapley 準則因其根植於博弈論,能以嚴謹的數學基礎來量化資料的重要性,被視為目前最具說服力的資料貢獻度評估方法。然而,傳統的 Data Shapley 計算需要對眾多資料子集重複訓練模型,計算成本極高,實務中難以應用於今日主流的大型神經網路和基礎模型(foundation models)。
本文《Data Shapley in One Training Run》由 Wang、Mittal、Song 與 Jia 四位作者提出了一項突破性的技術——In-Run Data Shapley,有效解決了現行方法在計算效率與目標模型特異性方面的瓶頸,並獲得 ICLR 2025 傑出論文優秀獎(Outstanding Paper Honorable Mention)。本篇文章將帶您深入解析該論文的研究動機、核心方法、實驗成果,以及對人工智慧領域的深遠影響。
研究背景與動機
隨著生成式 AI 與大型語言模型的崛起,模型訓練所依賴的資料規模日益龐大,從數百萬到數十億筆不等。在版權爭議、資料策展、模型公平性和資料偏誤檢測等多方面,判斷哪部分資料對模型具備實際助益變得至關重要。Data Shapley 概念源自於經濟學中的Shapley Value,用以公平分配合作遊戲中各方貢獻。在機器學習中,Data Shapley 嘗試以此框架衡量每筆資料在整體模型性能增益上的貢獻值。
然而,現有計算 Data Shapley 的方法必須多次重訓模型於不同資料子集上,嚴重限制了它的規模延展性及針對單一目標模型的解析能力。此外,傳統方法給出的貢獻度分數是基於演算法整體特性,無法洞察特定一次訓練過程中模型的獨特性。
因此,作者希望提出一種能夠在單次模型訓練過程中直接、高效地估計資料貢獻度的新技術,以推動資料評估真正落地於大型基礎模型訓練和後續分析。
核心方法與創新
論文提出的「In-Run Data Shapley」核心思想在於利用「模型訓練過程本身」即時捕捉資料對目標模型的貢獻,而非以傳統的多次重訓方式來評估。其方法架構主要包含以下幾個創新點:
- 一次訓練過程中估計貢獻:作者透過精巧數值分析技術,將 Data Shapley 的數學公式重構為訓練過程中梯度和參數更新的追蹤問題。此舉使得資料貢獻度的估算能被嵌入模型梯度計算及更新內,無須額外訓練。
- 近似算法的設計:為了彰顯實務可行性,論文提出近似算法,運用隨機梯度估計與動態權重調整機制,顯著降低計算複雜度,且在理論與實驗中證明誤差在可接受範圍內。
- 針對特定訓練過程定制:與傳統採樣模型穩態分布的貢獻分數不同,In-Run Data Shapley 聚焦「當前一次訓練實例」下的模型狀態,給出具體、可解釋的資料價值反映,提供更精準的資料監控與篩選維度。
- 高擴展性能與低計算開銷:在標準模型訓練程序中僅增加輕微計算負擔,顯著優於傳統方法需重複訓練數倍模型的巨大成本,首次實現基礎模型規模預訓練資料的資料貢獻點評。
主要實驗結果
為了驗證所提方法的有效性與實用性,作者針對不同資料與模型設定開展了多組實驗,涵蓋圖像分類、語言模型預訓練,甚至生成模型的情境。主要實驗結果包括:
- 與傳統 Data Shapley 的對比:In-Run Data Shapley 給出的資料貢獻排序與經典方法高度吻合,且在計算時間上節省數十倍,顯示出極強的效率優勢。同時,所評估的貢獻度具備模型特異性,更能反映特定訓練實例的實際影響。
- 資料驅動的模型性能分析:實驗發現,在大規模預訓練中,部分資料雖數量龐大,卻對下游任務貢獻甚微,甚至可能帶來負效應。透過 In-Run Data Shapley,能有效識別與篩除此類資料,提升模型效率和泛化能力。
- 版權與資料倫理的應用探討:透過精準的資料貢獻估計,研究團隊展示如何為生成式 AI 設計更合理的資料版權回報機制,保障原創資料提供者權益,亦促進模型訓練過程的透明度與責任歸屬。
- 大規模基礎模型預訓練測試:首度將資料 Shapley 評估拓展至基礎模型範疇,展示此技術在眾多資料來源混合訓練時,能夠揭示哪些資料集與子集對模型表現貢獻最大,為資料蒐集和清理提供科學依據。
對 AI 領域的深遠影響
本論文的最大貢獻在於打破了過去資料價值評估在大規模深度學習中應用的技術瓶頸,將資料 Shapley 推向了實際可用的範疇。這不僅是一項技術上的創新,更在多個層面對人工智慧領域產生深遠影響:
- 推動資料為中心的 AI 研究:隨著「資料驅動 AI」成為趨勢,如何合理分配與管理資料價值,將影響到未來模型設計、訓練策略、數據市場與合作框架。In-Run Data Shapley 提供了一個可行路徑,促使資料本身成為可計量與可管理的資產。
- 促進公平與透明的 AI 生態:透過準確的資料貢獻度估算,有助於揭露偏見資料來源,減少模型對特定族群或資料子集的過度依賴,提升模型公平性與泛化水平,亦有利於建立資料版權和回饋機制,保障資料提供者的權益。
- 支持大型基礎模型與生成 AI 的可持續發展:基礎模型因訓練所需龐大資料和資源備受挑戰,In-Run Data Shapley 可幫助科研與工業界優化資料庫維護,實現更加高效且環保的訓練流程。
- 開創單次訓練中的資料價值評估新範式:未來更多方法可能會借鑒此次提出的思路,將訓練過程內部資訊轉化為即時的解釋與調控機制,豐富機器學習系統的解釋力與適應性。
總結來說,《Data Shapley in One Training Run》憑藉一項巧奪天工的技術創新,重新定義了資料貢獻度評估的實踐可能,使得這一理論工具從受限制的研究方法蛻變成實際可用的工程利器。隨著 AI 應用日益普遍與資料倫理問題加劇,此技術的問世可望在透明化訓練、資料管控及模型優化等多方面帶來波瀾壯闊的革新。
論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:
張貼留言