在人工智慧及機器學習領域,理解並衡量訓練數據中每個樣本對模型性能的貢獻,一直是個極具挑戰卻又至關重要的問題。良好的數據價值評估,不僅能夠協助資料清洗、資料擴增、模型精簡與偏差偵測,還能促進更公平且高效的數據利用。於此背景下,「Shapley value」(沙普利值)成為衡量資料價值的理論基石,憑藉其遊戲論中公平分配的數學性質,對每筆數據的貢獻提供唯一且一致的分配結果。然而,傳統計算 Data Shapley 的方法,往往需要多次重複訓練模型,計算成本極高,難以在實務中大規模運用,因而成為限制其推廣的瓶頸。
在 ICLR 2025 發表並獲得 Outstanding Paper Honorable Mention 的論文《Data Shapley in One Training Run》由 Wang、Mittal、Song 和 Jia 共同提出了一種突破性的新方法,大幅降低了計算 Data Shapley 的成本。該方法的核心突破在於,僅透過一次完整的模型訓練過程即可直接估計所有訓練樣本的 Shapley價值,擺脫了傳統需多次重複訓練模型的繁複計算需求。這項創新不僅理論嚴謹,亦在多種實驗場景證明其計算效率與估計精度的卓越表現,對數據價值評估乃至整個 AI 訓練流程的優化具有深遠影響。
研究背景與動機
機器學習模型的基礎是大量訓練數據,但真實場景中所有數據對模型的貢獻並不均等。有些樣本可能冗餘,甚至帶來噪聲與偏差,反而影響模型的泛化能力。因此,能夠量化每個數據點對最終模型性能的「邊際貢獻」是非常必要的。Shapley value 源自合作博弈論,具有嚴格的公平性與一致性準則,成為計算單筆資料貢獻的理想工具。然而,計算 Shapley value 涉及對所有可能子集的模型訓練回圈,其計算複雜度隨資料規模指數級增長,實務中通常難以承受。
過去嘗試利用近似方法或採用代理模型,固然有所改善,但仍需大量重複訓練,效率受限且估計不夠精確。此論文作者便立志解決此問題,希望能在不犧牲準確度的條件下,顯著降低計算負擔,達成在一次訓練過程中,同時計算出每個訓練樣本之 Shapley value。
核心方法與技術創新
本論文提出的方法名為「Data Shapley in One Training Run(DSOTR)」,其核心理念是利用模型訓練過程中「梯度信息」與「模型參數的動態演進」來推斷數據對整體模型性能的貢獻。具體而言,DSOTR 嘗試追蹤每個訓練樣本在優化過程中對模型參數更新的影響力,並透過精心設計的數學工具,將這種影響整合成該樣本的 Shapley value 估計。
DSOTR 的設計關鍵包括:
- 基於梯度貢獻的估計:透過累積每一個 mini-batch中個別樣本對參數梯度的貢獻,DSOTR捕捉訓練中樣本的重要性變化,替代傳統直接評估子集增益的繁複計算。
- 優化軌跡反推法:利用訓練過程中參數演進的軌跡資訊,反饋每條梯度更新對最終性能的影響,透過近似析構將貢獻值分配給樣本。
- 高效的數值計算框架:作者設計了可與現有深度學習訓練流程整合的演算法,基本不增加額外參數存儲或大量額外運算,使得一次訓練過程即可完成所有 Data Shapley 計算。
理論上,該方法通過嚴格推導同時兼顧公平性及模型性能相關性,並且證明估計的誤差在可控制範圍內,保持了 Shapley value 的核心特性與可解釋性。
主要實驗結果
為驗證 DSOTR 方法的有效性,作者在多個公開資料集(如 CIFAR-10、MNIST 及多種自然語言處理任務)上進行廣泛實驗。結果顯示:
- 運算效率大幅提升:相較於傳統 Shapley 計算需重複數百次模型訓練,DSOTR 僅需一次完整訓練,節省數十倍至數百倍的計算時間與資源。
- 估計精度優異:DSOTR 所估計的 Data Shapley 與傳統多次訓練基準方法高度一致,且在挑選高價值數據、剔除噪聲樣本的應用中,能顯著提升最終模型性能。
- 泛化能力強:不同類型模型及任務均適用此方法,顯示出良好的通用性。
- 應用場景多元:除傳統資料篩選,本方法可用於資料集審核、數據產出策略制定、異常偵測等實務任務,增強商用 AI 系統在資料層面的透明與可信。
對 AI 領域的深遠影響
本論文的突破性成果,猶如為數據價值評估開啟了一扇新門。過去 Shapley 值因計算昂貴難以大規模且實務中普及,DSOTR 以創新數學架構與演算法優化,使得「一次訓練跑完所有樣本貢獻估計」成為可能。這不僅降低了研究與工程的門檻,也大大加速了數據驅動 AI 模型的迭代與優化流程。
未來,隨著數據規模爆炸性成長與複雜模型架構的普及,高效且準確的數據貢獻度評估將成為保障 AI 系統品質與公平性的基礎工具。DSOTR 方法能有效輔助開發者剔除低質量或偏差數據、提升模型泛化能力,同時也是資料供給方與使用方之間進行公平協議與價值交換的重要依據。
此外,該研究為進一步結合因果推理、強化學習與自動化資料工程提供了堅實的基礎,可望引領未來 AI 系統朝向更自主、更具解釋性與更高效率的方向發展。
總結而言,《Data Shapley in One Training Run》不僅展現了深厚的理論功力與系統實作能量,更以實際可行且高效的方法重塑了資料價值計算的技術地圖。此項研究成果不僅受頂尖會議青睞,獲得榮譽獎項肯定,也必將成為日後資料評估與 AI 訓練領域的重要里程碑。
論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

沒有留言:
張貼留言