在當前人工智慧與機器學習領域,資料的重要性不言而喻。模型的表現極大程度依賴訓練資料的質與量,然而在實務應用與學術研究中,如何公平且精確地衡量每筆資料對最終模型的貢獻,始終是一大挑戰。Data Shapley作為一套引理於博弈論「Shapley值」的資料價值評估框架,為此提供了理論上嚴謹的方法。然而,傳統的Data Shapley計算需要在多個子資料集上反覆訓練模型,造成計算資源與時間成本幾乎無法承受,尤其面對當前規模龐大的基礎模型與深度學習架構。由此,Wang, Mittal, Song, Jia四位作者於ICLR 2025提出的《Data Shapley in One Training Run》,成功突破了這個核心瓶頸,奠定了資料貢獻評估在大規模模型訓練上的可行性與效率,並獲得了傑出論文殊榮(Outstanding Paper Honorable Mention)。
研究背景與動機
資料貢獻評估的實務意義非常廣泛,從資料清理、孤立點檢測,到資料授權與版權問題,以及資料集優化、模型性能區分,都迫切需要量化每筆訓練資料的重要性。現行方法使用Data Shapley透過計算資料加入前後模型表現變化,進而估計該筆資料的公平貢獻,理論合理卻面臨重重困難:
- 重複訓練成本龐大:為了取得準確的貢獻分數,必須在大量的資料子集組合上重覆訓練模型,計算費用隨資料量增加指數級攀升。
- 無法針對單一訓練結果評估:既有方法只能產生對學習演算法整體輸出模型的平均化貢獻評分,不適用於評估特定一次訓練過程中得出的模型。
此外,隨著生成式模型(如GPT系列、DALL·E等)及其他大規模預訓練模型崛起,如何在「一次訓練運行」中完成資料貢獻估計,成為亟需解決的關鍵問題,也納入了影響AI版權審查與資料集策劃的新視角。
核心方法與創新
本論文的核心貢獻在於提出In-Run Data Shapley,一套能在單一訓練流程中同時回傳每筆資料貢獻分數的演算法。
具體來說,該方法透過引入「邊緣貢獻的在線估計機制」,在模型正向傳遞與參數更新過程中巧妙嵌入Shapley值計算框架,避免了多次訓練的冗餘。其技術原理包含:
- 漸進式資料影響追蹤:在梯度下降更新的每一步中,計算每筆資料對損失函數變化的即時影響,並利用概率權重進行合理的貢獻歸屬。
- 動態加權與估計:結合蒙地卡羅採樣的智慧,使用近似方法高效估計巨量子集下的資料貢獻,確保估計的無偏性與低方差。
- 靈活目標模型定義:直接針對一次訓練結果模型進行資料評估,克服過去只能對整體演算法期望輸出計算分數的限制。
在計算效率方面,作者實驗證明該框架最優化後,引入的時間成本僅是普通訓練的極小增量,幾乎不增加額外彈性計算負擔,這是傳統Data Shapley的數量級改變,彰顯突破性的效率優化。
主要實驗結果
本論文進行了多項針對基礎模型預訓練及資料評估的實驗,並試圖回答以下重要問題:
- 基礎模型訓練資料的重要性分布:應用In-Run Data Shapley於大型語言模型(如Transformer架構)預訓練,揭示部分資料子集對模型效果的決定性貢獻,顯示不均質性明顯。
- 資料貢獻與複製稠密資料的關係:檢驗了模型如何對大量重複或相似資料做出不同貢獻評價,有助於資料去重與版本控制。
- 版權與訓練資料使用合理性評估:作者將資料貢獻尺度與生成式AI創作的素材授權爭議結合,引出量化依據,為未來立法與倫理審查提供實務數據支持。
在實驗中,In-Run Data Shapley與現有近似方法比較,不僅維持相似的估計準確度,更以極小的計算時間實現,證明其可行性與先進性。案例分析亦展現,透過此方法識別並移除低貢獻或有害訓練資料,可顯著提升模型泛化能力與訓練穩定性。
對 AI 領域的深遠影響
《Data Shapley in One Training Run》在AI資料評估與模型訓練領域開創了新藍海,其影響具有多重層面:
- 提升資料透明度與公平性:資料貢獻的精準量化,有助於建立更公平的資料使用生態,促使資料提供者與使用者間權利義務更清楚,尤其在跨國資料分享與法律規範日益嚴峻的環境下至關重要。
- 加速基礎模型訓練與優化:過往基於巨量資料的預訓練往往缺乏細粒度資料管理與效應評估,本研究方法可直接嵌入訓練流程,動態調整資料策略,提升訓練效率與效能。
- 促使生成式AI版權審查實務化:生成式模型常面臨訓練資料版權爭議,In-Run Data Shapley提供了客觀、可追蹤的資料貢獻量化工具,利於版權持有人維權及AI生成內容合法性評估。
- 啟發資料價值度量新方向:傳統人工智慧強調模型本身,而資料價值評估是另一關鍵環節。此方法突破計算瓶頸,為未來資料市場化、資料品質管理以及自適應資料集設計奠基。
總結而言,Wang等人藉由In-Run Data Shapley的提出,讓過去理論上重要卻鮮少實踐的資料貢獻評估機制,終於實現於大規模模型一次訓練中,突破了計算複雜度的瓶頸,開啟了資料驅動AI公平性、透明度以及效率的新紀元。對現代AI工業應用與學術研究都具有深刻啟示與實務價值,是2025年ICLR頂會的重要里程碑之一。
論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:
張貼留言