行有餘力則以學文: Scaling Data-Constrained Language Models

2026年5月28日星期四

Scaling Data-Constrained Language Models

近年來，語言模型（Language Models, LM）的性能隨著模型參數數量和訓練資料規模不斷擴大呈指數級提升，成為自然語言處理（NLP）領域的主流趨勢。然而，隨著網路上可取得的高品質文本數據逐漸成為瓶頸，訓練語言模型的資料來源將逐步受限。NeurIPS 2023 年一篇由 Muennighoff、Rush、Barak、Scao、Piktus 等人合作發表的論文《Scaling Data-Constrained Language Models》針對這一現象進行深入探討，並獲得了「Outstanding Paper Runner-Up」殊榮。本文將針對該論文進行深度解析，探討其研究動機、核心方法、實驗結果及對 AI 領域的影響。

研究背景與動機

過去大型語言模型的成功依賴於兩條核心資源的擴展：一方面是「模型參數數量」持續增長，另一方面則是「高質量文本資料集」的規模不斷擴大。根據多項經驗性規律，模型表現與模型大小及訓練資料量之間具有明確的正相關關係。然而，現實中互聯網上的可用文字資料基數有限，且增量逐漸趨緩，這意味著單純依賴擴大訓練資料的增長來提升模型性能的空間將逐漸消失。

如何在「資料受限」（data-constrained）的條件下，繼續有效地擴展大型語言模型，成為研究社群急需解決的問題。該論文的核心動機便是探索在資料有限的前提下，模型擴大與訓練策略的最佳化方案，特別是分析資料重複（data repetition）如何影響模型訓練效率及最終效能，並尋找新的擴展規則以突破現有侷限。

核心方法與創新

論文作者設計了大規模系統性實驗，涵蓋超過 400 組訓練設定，參數規模跨越 1 億至 90 億，訓練資料規模最大達 9000 億 tokens，模擬各種「資料有限-資料重複」與「訓練計算資源（compute budget）」配合情境。主要創新包括：

資料重複對損失函數的影響評估：作者發現，在固定訓練計算資源下，最多訓練資料重複4個迴圈（epochs）時，模型損失表現與訓練於相同數量獨特資料相當，意即有限的資料重複不會顯著損失學習效率。
建立新的擴展法則（scaling law）: 傳統擴展法則假設資料是無限且唯一的，但實際重複訓練時，資料的邊際價值隨著重複次數增加會遞減。論文提出一個包含資料重複影響的計算最佳化法則，能定量描述當資料重複度加劇且參數過剩時，額外提升訓練計算帶來的效益逐步放緩甚至消失。
資料緩解策略: 針對資料稀缺情境，作者嘗試加入程式碼資料（code data）來增豐語言模型的訓練素材，並嘗試移除部分過濾規則以保留更多文本多樣性，這些策略顯示在一定程度上可緩解資料限制對模型效能的影響。

主要實驗結果

透過大量一致且全面的實驗，論文獲得多項重要結論：

資料重複容忍度高：在計算資源固定時，適度（最多4個epochs）的資料重複並不會顯著影響模型的最終性能。這提示在資料取得有限的情況下，可重複使用資料而不致於大幅損失效果，為節省資料標註成本提供理論依據。
資料重複度增加後的邊際效益降低：超過4次的資料重複，尤其在模型和計算資源逐步放大時，多餘的參數和計算資源不再帶來效益，模型的損失函數不再明顯下降，意味著模型訓練已受限於資料新穎度和多樣性的缺乏。
計算資源與資料資源間的折衷關係：提出的擴展法則可解釋並預測在資料受限的條件下，應如何調整模型大小與訓練步數以達到成本效益最佳化，不同於過去假設資源無限的理想狀況。
資料質量增強策略有效：將程式碼資料合併到語言模型訓練流程中，對於提升模型表現產生可觀的正面作用，說明跨領域多樣化資料可以部分彌補純文本資料的不足。

對 AI 領域的深遠影響

這項研究針對當前語言模型擴展中不可忽視的「資料瓶頸問題」提出了理論與實踐上的重要貢獻。過往很多擴展研究往往忽略了資料限制對模型性能的潛在影響，而本論文系統地量化了資料重複現象對訓練效益的衰減，並且提出新的擴展法則來協助未來模型設計時有效分配計算與資料資源。

此外，隨著商業應用場景中取得大規模標註語料成本日益高昂，如何在有限資料下進行模型訓練成為產業界與學術界的共通挑戰。本研究提供了實務層面的指引，包括合理地利用資料重複、引入多元資料源、以及調整模型大小與訓練步數等方法，有助於提升訓練資源的利用率，並加速新一波模型開發效率。

對於未來大型語言模型的發展，更加注重「資料有效性」將很可能成為新常態。本論文的貢獻不僅在於揭示資料重複的邊際效應，更創新整合現代擴展理論，為後續在資料受限環境下的語言模型訓練與部署指明方向。此外，他們開放了超過 400 組實驗模型與資料集，促進學術社群進一步探討與驗證，這對推動整個 NLP 領域的進步有著積極意義。

總結來說，《Scaling Data-Constrained Language Models》從根本上挑戰了單純追求資料與模型無限擴大這一成見，轉而聚焦資料限制下如何理性、有效地設計及訓練模型。這不僅是技術上的突破，也將引導業界與研究界在資源分配與模型工程策略上產生深遠影響，是未來 AI 語言模型規模化的重要參考。

論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264