行有餘力則以學文: Scaling Data-Constrained Language Models

2026年4月1日星期三

Scaling Data-Constrained Language Models

在當前自然語言處理（NLP）領域，語言模型的性能提升多仰賴於兩個核心因素：模型規模（參數數量）與訓練資料規模。隨著 GPT 系列等大型模型的興起，這兩者呈現同步擴張的趨勢，透過擴大參數量及訓練語料，以不停地優化模型預測能力。然而隨著資料規模不斷膨脹，一個漸近的「資料瓶頸」問題日益明顯──網際網路上可獲得的高質量文字資料終究有限，未來訓練資料量可能會達到飽和。

在此背景下，由 Muennighoff 等人於 NeurIPS 2023 發表，並榮獲 Outstanding Paper Runner-Up 的論文《Scaling Data-Constrained Language Models》提出了深入探討在「資料受限」環境中進行語言模型擴展的理論與實證框架，針對未來資料匱乏卻又想繼續放大模型的挑戰，提出全新視角及方法。

研究背景與動機

近年大規模語言模型（Large Language Models, LLMs）快速成長多依賴於豐富而龐大的訓練資料集，通常涵蓋數千億字元。然而，隨時間推移，這些資料源，包括網路爬蟲資料、書籍、維基百科等逐漸被重複利用，資料的新鮮度與多樣性愈來愈受限。若持續追求更大模型參數量，則訓練資料的飽和將成為瓶頸，因為不夠多的唯一（unique）語料意味著不得不重複使用相同資料，或降質訓練集。此種「資料受限」（data-constrained）狀況下，現有的擴大策略能否奏效？以及是否存在新的計算與資料最適分配法則？這些問題尚未有明確解答。

因此，作者設定了一個框架，嘗試研究在資料量固定且有限的條件下，如何利用有限資料與固定計算資源，最大化語言模型訓練效益。研究動機即在於提前布局未來可能出現的巨型模型資料瓶頸期，提出指導性結論與訓練策略。

核心方法與創新

本論文的主要創新包含：

大規模系統性實驗設計：作者進行了超過 400 組的訓練實驗，調整了資料重複次數（epoch 數）、模型參數規模（數百萬至 90 億）、及訓練資料總 token 數（最高達 9000 億 token）。此龐大實驗架構允許全面探索在不同資料飽和度及計算預算下性能曲線。
資料重複對訓練損失的影響分析：論文發現，在資料受限且計算預算固定的前提下，最多重複使用相同資料四輪（4 個 epoch）對模型損失（loss）提升幾乎沒有影響，與訓練時若能使用同等規模但完全獨特資料情況無異。
提出新的「計算最適性縮放定律」（scaling law）：作者基於實驗結果，推導出一套能解釋重複資料價值遞減與多餘模型參數帶來效益消減的新定律，幫助預測在資料受限情況下分配計算資源的最合理方案。
針對資料匱乏的補救措施實驗：包括利用程式碼資料（Code Data）作為額外訓練資料，和放寬預處理過濾規則這兩種策略，驗證資料多樣性提升對受限資料模型的幫助。

主要實驗結果

透過多組量化實驗，論文提供以下幾項關鍵發現：

資料重複可微乎其微地彌補資料缺乏：重複使用相同資料數次，在 4 個epoch以內損失曲線與模型效能的變化可忽略不計，顯示適度重複並非劣勢。這代表在資料有限時，合理安排重複訓練能維持訓練品質，為資料不足的情況帶來彈性。
過度重複顯著降低計算利用率：當資料量過小，重複次數超過4輪時，新增的計算資源（如更長訓練）開始無法轉換成損失降低，意即模型不再從更多訓練中獲益，出現「過度擬合」或「無效訓練」現象。
新縮放定律指引最佳計算與資料分配：作者提出計算資源應該在模型參數與資料量的比重間找到最佳平衡。此定律說明了在資料受限條件下，模型規模擴大型態與多計算投入的效益下降機制，並給出理論依據支持如何選擇模型大小與訓練規模，避免浪費資源。
增加多樣性資料有效對抗資料匱乏：加入程式碼數據作為輔助訓練資料，或是減少資料過濾，提高資料多樣性和豐富性，實驗證明能提升模型泛化能力與訓練速度，為資料有限問題提供一種良好的緩解策略。

對 AI 領域的深遠影響

此論文在 AI 語言模型持續擴展的背景下，提出了前瞻性的理論與實務框架，對未來模型訓練策略以及研究方向有重大啟示：

突破數據瓶頸的策略指引：未來隨著網路資料增長放緩、重複資料困境變嚴重，模型訓練不再僅是「有更多資料就更好」，本研究說明必須用新的角度來看待計算預算與資料利用的平衡。
模型與資料共設計的理論基礎：此前多數語言模型擴張工作大多聚焦模型架構與規模成長，而本論文強調資料量和計算分配的最佳策略，促使研究與工程實務關注資料多樣性與利用率，兩者並重。
啟發資料稀缺領域研究：不只是語言模型訓練，任何面臨資料稀缺的深度學習任務都有機會借鑑本研究的定律與策略，尤其是如何用有限資料「重複訓練」又能有效率地獲得模型提升。
開放資源助力社群發展：透過公開 400 多組模型訓練與資料實驗組合，提供豐富資源供後續研究者驗證與擴展，促進了學界與產業界對資料-計算平衡問題的深入探討。

總結而言，《Scaling Data-Constrained Language Models》這篇論文以系統性實驗與理論模型揭示了在資料受限情形下語言模型擴展的新規律，為未來 AI 模型在資料資源有限的挑戰中提供了具體可行的解決方案與重要理論依據，是目前語言模型規模化研究的重要里程碑。對具備基礎 AI 知識的研究人員和工程師而言，此研究不僅提供了操作層面的訓練策略，亦開啟了對語言模型未來發展瓶頸的深刻思考，為持續推動大模型技術向前奠定扎實基礎。

論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264