隨著機器學習模型與人工智慧系統規模的持續擴大,理解訓練資料中每筆數據對最終模型性能的貢獻,成為研究與實務中一項關鍵挑戰。傳統上,Data Shapley 作為一套理論上具有高解釋力的資料貢獻歸因方法,能量化每筆訓練數據對模型結果的重要性,幫助研究者挑出關鍵數據、審查異常資料、甚至鑑別數據版權問題。然而,既有的 Data Shapley 計算方式需要反覆重新訓練模型在不同數據子集上,導致極大的運算成本,幾乎無法應用在大規模或基礎模型(foundation model)預訓練階段。除此之外,傳統方法的分數針對整個學習算法產生的任一相同分布模型,缺乏對「特定單次訓練結果」的歸因能力,限制了它在真實訓練流程中的針對性與精確度。
在這樣的背景下,Wang、Mittal、Song 及 Jia 於 ICLR 2025 發表的論文《Data Shapley in One Training Run》提出了一套全新且極具創新的解決方案 —— In-Run Data Shapley(以下簡稱 IR-DS),首次實現了「一次訓練過程中即完成資料價值歸因」的目標,大幅克服了過去 Data Shapley 在計算效率與應用彈性上的瓶頸。
核心方法與創新
本論文的核心貢獻是設計出在針對**特定一次訓練完成之模型**(即你手上實際訓練出的模型)進行資料貢獻度衡量的全新框架。具體而言,IR-DS 利用優化過程中模型參數隨時間的演化資訊,結合對模型訓練動態的理論分析,直接在一次完整訓練跑完的過程中,實時計算出每筆訓練數據對最終模型性能的邊際貢獻。這與傳統需要針對各個子資料集重訓模型的作法截然不同,避免了冗長的重訓流程。
該方法技術基礎依賴於對梯度更新軌跡的跟蹤與高效的「摺疊式積分」計算方式,將在每個批次對模型參數的貢獻分攤至該批次內的單筆資料。這步驟不僅維持了理論上的公平性與精確度,同時讓整個 Data Shapley 分數的估計變得可在單次訓練中完成,幾乎沒有顯著增加原本訓練的計算負擔。
此外,IR-DS 還展現了靈活調整分析對象的能力,能針對具有明確目的、特定超參數與隨機初始值下的模型,量化資料貢獻。這解決了傳統方法「只能對整體演算法下產生的模型群給出一致分數」的限制,使得資料的貢獻度更具針對性與解釋力。
主要實驗結果與案例分析
作者團隊在多個大型公開資料集與真實世界基礎模型的預訓練階段進行了詳細的實驗驗證。最令人震撼的是,他們成功部署 IR-DS 技術於典型的變形金剛(Transformer)架構的基礎模型預訓練,這是過去任何 Data Shapley 技術望塵莫及的挑戰。
實驗結果顯示,IR-DS 能準確鑑別出對最終模型泛化性能或特定測試任務貢獻顯著的資料點。以語言模型為例,IR-DS 幫助揭示了特定類別文本資料對模型生成質量的提升度,有助於理解不同資料分布與模型能力之間的關聯。此外,在圖像分類任務中,它還能識別出含有噪聲或誤標記的低質量資料,有效為數據清理與再標註提供決策依據。
更值得一提的是,作者將 IR-DS 應用於生成式 AI 領域的著作權議題分析。他們透過量化各資料集與單筆資料對生成模型內容創造的貢獻,為業界討論「數據版權」與「模型訓練數據來源可信度」提供了重要實證工具,具備極強的社會與法律意涵。
對 AI 領域的深遠影響與應用前景
IR-DS 不僅在技術層面實現了一次訓練跑完就獲得資料貢獻度的革命性突破,其背後所帶來的理念與應用潛力,將長遠影響 AI 研究與產業多個關鍵面向:
- 超大規模模型訓練的資料管理:隨著基礎模型與自監督學習盛行,訓練資料量動輒億級起,傳統評估方式根本行不通。IR-DS 的高效性為這類模型「即時、可擴展」的資料品質監控與挑選打開可能。
- 數據版權與生成 AI 法律問題:針對生成式 AI 的內容創造歸屬權爭議反覆上升,IR-DS 為量化「誰的數據對模型影響最大」建立了嚴謹工具,能具體支持版權聲索或數據合約檢證,推動標準化與合規研究。
- 模型訓練安全與公平性分析:借助明確的資料貢獻度指標,能辨識訓練資料中潛在的偏見數據或惡意攻擊樣本,提升模型的安全性與公平性,助力負責任 AI 建設。
- 新型訓練策略與資料增強指導:IR-DS 提供的資料重要性視角,能指導如何有效篩選、加權資料,甚至設計更具針對性的資料增強方法,使模型訓練更高效、穩健。
總結而言,Wang 等人所提出的《Data Shapley in One Training Run》不僅突破了傳統 Data Shapley 計算成本過高的技術瓶頸,更將資料貢獻度分析推向可以被大規模及工業場景實際應用的階段。此創新方法不僅提升了模型訓練過程的透明度,也對資料科學、模型治理與法規合規等跨領域議題提供了強力支撐,是 AI 領域中理論與實務結合的典範之作。
論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011
沒有留言:
張貼留言