行有餘力則以學文: Scaling Data-Constrained Language Models

2026年5月16日星期六

Scaling Data-Constrained Language Models

近年來大型語言模型（Large Language Models, LLMs）的發展趨勢，主要聚焦在兩個方向：增加模型參數規模以及擴充訓練資料量。這種「雙重尺度擴張」的策略推動了模型性能的快速提升，然而隨著網路上可取得的文本資料逐漸趨於飽和，資料量成為限制模型訓練的潛在瓶頸。Muennighoff 等人在 2023 年 NeurIPS 發表的論文《Scaling Data-Constrained Language Models》，針對此一資料受限的大規模語言模型擴展問題，提供了系統性實驗、理論分析與解決方案，展現出在資料匱乏情境下如何優化模型規模與訓練策略，具備重要的學術與實務價值。

研究背景與動機

傳統的語言模型擴展規律，依據先前的大量研究，通常假設資料規模可隨需求無限擴充，參數數量與訓練資料量同步放大，以提升模型的泛化能力與下游任務表現。然而，當資料量逼近自然界和網路文本的「稀缺上限」，模型不能再透過增加獨特資料來提升性能，這時候重複利用有限資料便成為現實挑戰。

本論文洞察到：「資料受限場景」下，傳統的擴大模型規模策略會面臨邊際效益遞減，甚至可能出現過度擬合與訓練浪費。因此作者提出，一方面要明晰資料重複利用對訓練效益的影響，另一方面需要建立新的模型擴展理論，優化有限資料資源下的計算投入，並探索怎樣利用其他類型資料（如程式碼）或改變資料處理策略，以緩解資料瓶頸。

核心方法與創新

本研究採用大量的實驗設計，涵蓋從數億到 90 億訓練 tokens 以及 90 億參數模型的訓練規模，系統驗證資料重複次數與計算資源（compute budget）對模型訓練效益的關係。具體而言，作者設計以下幾個核心創新：

重複資料影響分析：透過控制訓練資料全集大小與重複使用次數，驗證在 1 到 4 個 full epochs 重複訓練資料下，模型的訓練損失變化微乎其微，說明有限資料下合理循環使用資料無損模型效能。
計算資源最佳化規律：在資料極度重複（超過 4 次 full epochs）後，額外投入的訓練計算並未帶來相應的損失降低，產生明顯的邊際效益衰退效應。此現象提出了新的「計算最佳化尺度定律（scaling law）」，量化不同資料重複率和模型規模下，計算資源的最佳分配策略。
資料匱乏問題的緩解嘗試：除了分析標準文本資料，研究團隊探索加入程式碼數據以擴增訓練語料，以及調整過濾器設定去除常用的資料過濾規則，這些方法成功提高了資料多樣性和密度，從而促進受限資料條件下模型性能改善。

主要實驗結果

本論文在 400 場次的訓練實驗基礎上提出以下幾點核心發現：

在固定計算預算下，使用有限且重複的資料進行多達 4 個 full epochs 的訓練，模型損失幾乎與訓練在完全不重複資料集上的結果相當。換言之，有限資料適度重複使用不會削弱模型性能。
當資料重複次數超過 4 次時，再增加計算投入逐漸失去效果，模型訓練損失停滯，表明在高度資料重複的狀況下，計算資源不能再推動性能進一步提升。
依據實驗數據建立的計算最佳化尺度定律，捕捉了隨著資料重複程度提高，重複資料價值逐漸降低，過多參數同樣無法帶來正面效應，協助在有限資料條件下選擇合適模型大小與訓練步數。
透過引入程式碼資料或取消標準過濾器使資料更豐富，模型在有限文本資料容量下依然能獲得更好泛化效果，顯示多樣化資料策略對資料限制場景尤為重要。

對 AI 領域的深遠影響

本論文的貢獻，不僅是對大規模語言模型擴展理論的深化，更具有多面向的實務啟發意義。首先，隨著資料獲取難度增加和版權、隱私等問題日益嚴峻，未來大型語言模型勢必面臨資料受限的普遍挑戰。此研究提供了在這種場景下如何合理分配計算成本、選擇模型規模的科學方法，有助於資源有限的團隊設計更有效的訓練策略。

其次，本研究所提出的計算最佳化尺度定律補充並豐富了現有的擴展規律，從理論層面揭示資料重複率對訓練效益的影響，為未來混合式資料管理和訓練方法的開發奠定基礎。此外，資料擴充策略（如納入程式碼資料）也為跨模態或多語言、多領域模型建構提供新思路。

最後，作者公開了龐大的訓練資料集以及 400 次的模型訓練結果資料，推動開放科學與可重現性研究，促進後續研究者深入探討資料受限和模型擴展的交叉議題。

總結來說，Muennighoff 等人的《Scaling Data-Constrained Language Models》對大型語言模型在資料受限條件下的訓練策略提供了全面而具前瞻性的解析與實驗證明，成為未來人工智慧模型發展中不可或缺的重要指引。

論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264

行有餘力則以學文

2026年5月16日星期六

Scaling Data-Constrained Language Models

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年5月16日 星期六

Scaling Data-Constrained Language Models

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年5月16日星期六