行有餘力則以學文: Scaling Data-Constrained Language Models

2026年4月15日星期三

Scaling Data-Constrained Language Models

隨著預訓練語言模型（pretrained language models）在自然語言處理領域取得顯著成果，模型參數數量及訓練資料規模的大量擴張，已成為提升性能的主流策略。然而，現有的擴展趨勢不可避免地面臨「資料瓶頸」：網路上可用的高品質文本資料有限，當達到資料飽和狀態後，如何在有限資料環境下繼續擴大模型並取得有效提升，成為當前研究的重要議題。這篇2023年NeurIPS優秀論文入圍作品《Scaling Data-Constrained Language Models》由Muennighoff等多位作者合作完成，針對資料受限的情境提出深入探討與系統化實驗，並擬合出適合此場景的擴展法則（scaling law），對語言模型的未來擴展方向具有啟發性意義。

研究背景與動機

當前大規模語言模型如GPT系、PaLM等，普遍遵循「增加參數量與擴大訓練語料庫」雙軸策略，促使模型表現不斷推陳出新。然而，資料規模擴增的速度不及模型大小成長快，且網際網路可自由取得且質量適中之文本總量有限，終將形成「資料不再是無限供給」的瓶頸。此外，重複使用同一批資料（data repetition）在訓練中的影響至今仍不明確。這些挑戰驅使作者聚焦在「資料有限，但計算資源可調」的框架下，探討如何最有效地使用資料和計算資源，同時量化資料重複使用對模型訓練損失與擴展效益的影響，期望提出可指導實務的理論依據與訓練策略。

核心方法與創新

本論文核心貢獻在於：

大規模系統化實驗設定：採用超過400組訓練試驗，涵蓋從10億到9000億個訓練token、模型參數數量從億級至90億級，跨越寬廣的數據重複比例及計算預算空間，精細拆解資料規模與重複度於模型學習曲線上的交互作用。
重複資料對效能影響的精確量化：發現在固定計算資源下，資料重複使用4個epoch（約訓練資料重複使用4次）以內，損失函數的變化非常微小，意味著有限的重複資料對模型訓練影響有限。但超過此限後，反覆訓練相同資料的效益急劇衰減，增加計算資源並無明顯提升。
建立專屬於資料受限場景的擴展法則：作者提出並驗證一種擴展法則，此法則不僅考量模型參數量與標準訓練token數，更引入了「重複token效果遞減」與「過剩參數無效化」因子，精準描述計算投入與資料重複如何共同影響模型最佳效能優化點，為未來在資料受限環境下分配資源提供理論依據。
解決資料匱乏的實務策略實驗：作者嘗試將程式碼資料整合至語言模型訓練語料中，拓展資料多樣性與覆蓋範圍，並突破常用過濾規則限制，以爭取更多可用文本。實驗證明這些策略在一定程度上可緩解純文本資料稀缺問題，促進語言理解與生成能力的提升。

主要實驗結果

透過超過400次大規模訓練實驗，研究團隊得出幾項重要發現：

在計算預算固定的條件下，對同一批有限資料重複訓練最多4個epoch，模型訓練損失無顯著差異。這意味著，在有限資料狀況下，重複資料相較新增資料，短期內對損失改善影響不大。
資料重複超過4次後，所謂的「邊際效用」迅速降低，延長訓練時間甚至陷入過度擬合，導致性能提升停滯。此時增加更多計算資源，而不新增不同資料，無助於改善模型表現。
提出的擴展法則成功模擬並預測了不同資料重複及參數量搭配情況下的訓練損失走勢，反映出資料重複導致的「有效資訊稀薄」與大規模參數下的「計算資源浪費」現象。
引入程式碼資料與放寬傳統過濾準則兩項措施，能有效增加訓練資料量，緩解資料瓶頸，訓練出來的模型在多樣語言任務中展現更優性能，提示資料多樣性是對抗資料匱乏的重要途徑。

對 AI 領域的深遠影響

本論文在資料有限的大規模語言模型擴展問題上具有突破性貢獻，影響層面包括：

理論視角的補充：過往擴展法則普遍基於「無限且獨立同分布的資料假設」，本研究首度將資料重複性及資料稀缺現象納入考量，訂製對應擴展關係式，為模型規模與資料規模在現實受限環境下的最適配置提供科學依據與予測工具。
實務訓練策略指引：提供業界在資料匱乏情境下，如何合理分配計算資源、選擇資料重複輪次，以及引入多源異構資料增加語言覆蓋，使得有限資源下仍能獲得良好模型性能，減少無效計算浪費，提升資源利用率。
促進低資源語言模型發展：許多低資源語言或領域難以蒐集龐大訓練資料，作者的結論與方法可作為指導，利用有限資料集配合適度重複及多源資料混合訓練，提高模型表現與泛化能力，降低技術門檻與成本。
資料多樣性與質量的重要性重申：研究中引入程式碼資料並放寬過濾規則成功取得更多訓練文本，印證多樣化及拓展資料來源是突破資料限制的有效方法，呼應AI研究中「資料優於參數無限放大」的價值觀。

總結而言，《Scaling Data-Constrained Language Models》不僅突破了過去語言模型擴展架構中以無限新資料為前提的限制，更首創系統化探討資料重複利用效應、計算資源分配與模型大小權衡，為AI社群在面對現實資料不足問題時，提供了重要理論支持與實驗依據。隨著大型模型成為主流且被廣泛應用，本論文的洞見與方法將在未來語言模型設計調校、資源配置與訓練策略制定中扮演關鍵角色，特別對於低資源應用場景及模型訓練成本控制具有顯著的實務價值和指導意義。

論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264

行有餘力則以學文

2026年4月15日星期三

Scaling Data-Constrained Language Models

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年4月15日 星期三

Scaling Data-Constrained Language Models

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年4月15日星期三