2026年5月3日 星期日

Scaling Data-Constrained Language Models

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理(NLP)領域的快速發展,模型規模與訓練資料規模成為提升模型效能的重要雙軸。過去幾年中,從參數量的急速放大到訓練資料集的擴張,皆有效地推動了模型在多項任務上的表現躍進。然而,這樣的趨勢同時也引發一個根本性的侷限:網路上可用的高品質文本資料是有限的,未來幾乎不可能持續大幅增加真正「獨特」的文本資料量。面對這樣的資料天花板,Muennighoff 等人於 NeurIPS 2023 發表的論文《Scaling Data-Constrained Language Models》提出了深入探索在「資料受限」情況下的模型擴展策略與理論分析,並榮獲傑出論文候選獎(Outstanding Paper Runner-Up)。

研究背景與動機

主流語言模型的擴展模式由「更多參數」加上「更多資料」雙軸驅動,這在早期眾多研究如 GPT 系列、Chinchilla 等中已被證實有效。尤其,近期 Chinchilla 指出單純擴大模型參數數量若不配合比例相當的訓練資料,很容易導致效益遞減與資源浪費。然而,網路資料量並非無限,且高品質、標準化的資料更為稀缺,直接限制模型未來可訓練的獨特訓練樣本數。因此,理解並優化在"資料有限"的前提下,如何合理利用計算資源與重複資料進行訓練,具備極大實務與理論價值。論文以此為出發點,深入探討在重複資料(Data Repetition)以及固定計算能力(Compute Budget)條件下,最佳的訓練策略為何,同時尋求合適的規模定律(Scaling Laws),以指導未來有限資料場景下的模型設計與擴展。

核心方法與創新

本研究從大規模實驗出發,設計了超過 400 組訓練實驗,變化範圍涵蓋訓練資料的重複次數(epoch 數從 1 到多次重複)和模型規模(最高達 90 億參數),並最大化計算量使用(迄今高達 9000 億訓練標記)。這些實驗旨在精確量化資料重複對模型訓練表現的影響以及重複資料隨計算增加對模型效益的衰減。具體創新點包括:

  • 資料重複與計算效用的系統性評估:不同於以往只評估獨特資料下的擴展,本論文深入對比多個 epoch 的資料重複如何影響「訓練損失」與「模型泛化」。結果顯示,在固定計算預算下,資料重複到 4 次對模型訓練損失影響極小,表明合理重複資料可代替部分新增資料。
  • 提出新的擴展定律:發現隨著資料重複次數增加,重複標記的邊際效益(Marginal Utility)逐漸下降,計算投資回報率亦隨之衰減,進而形成計算與參數優化的新平衡。論文基於大量實驗數據提出公式化的「計算最佳化擴展定律(Compute Optimality Scaling Law)」,提供量化模型規模及計算預算下,資料重複程度的最佳取捨指導。
  • 探索資料匱乏下的補救策略:除了純重複資料訓練,作者亦嘗試用「將程式碼資料納入訓練集」或「解除常見預處理資料濾除策略」等方法,成功緩解資料有限帶來的性能瓶頸,為將來多元資料融合提供參考。

主要實驗結果

本論文透過大量實驗實證,凝鍊出以下幾大核心發現:

  1. 資料重複最高可接受次數:在固定的計算資源下,將資料重複訓練到約 4 個 epoch,是損失和效能的最佳平衡點。在此範圍內模型效能幾乎不受重複資料影響,與使用完全獨特資料相比有等效表現,這對缺乏大量獨特文本的新創團隊及研究者意義重大。
  2. 重複資料過度訓練效益遞減:超過 4 次重複後,增加計算資源(例如再多投放更多 GPU 小時或參數)所帶來的性能提升趨近於零,意味著過度重複損耗了模型訓練的增益,非但資源浪費,還可能加劇過擬合問題。
  3. 計算最佳擴展定律驗證:作者以實驗資料支持他們所提出的擴展定律,這一定律巧妙融合「資料重複的邊際效益下降」與「過多參數的資源稀釋」兩大現象,能指導在數據有限時如何更有效地分配計算資源與設計模型結構。
  4. 訓練資料多元化緩解資料瓶頸:透過加入包含程式碼的資料集,以及放寬文件過濾策略,模型指標可獲進一步提升,展現將多樣化資料併入訓練,可在有限語料上擁有更好性能。

對 AI 領域的深遠影響

本論文對 LLM 訓練策略與理論架構帶來多層面啟示:

  • 理論與實務的銜接:長久以來,LLM 擴展的 scaling law 多假設資料無限,或著重資料量不變,僅推演參數與計算量關係。本研究結合現實中資料有限的實際狀況,拓展了擴展定律範疇,使之更貼合未來語言模型發展趨勢,具備高度應用價值與指導意義。
  • 資源有限下的模型訓練策略:結果指導開發者在資料受限時,可藉由合理的資料重複次數來飽和計算資源,避免盲目追求資料量,並探尋多元資料融合的可能,進一步提升模型能力與廣泛應用性。
  • 推動開源生態與再現性:作者公開了 400 多組訓練模型和完整資料集,提供產業界與學術界寶貴的基準資源,促進後續基於資料有限情境下的研究與優化,同時對保障 AI 訓練過程透明與可追溯尤為重要。
  • 長遠影響與前瞻性挑戰:隨著自然語言的資料飽和及模型進一步擴展越來越受限於資料,如何突破資料瓶頸成為 LLM 持續進步必須攻克的課題。本論文奠定了資料約束下的理論與實驗基石,未來可結合半監督學習、合成資料、跨領域遷移等多種策略,持續推動智能模型的邊界。

總結而言,Muennighoff 等人這篇《Scaling Data-Constrained Language Models》不僅從科學嚴謹的角度驗證了資料與計算資源之間的複雜互動,也提供了實務操作的明確指南,對 AI 研究者和工程師在資料有限的真實環境下訓練大型語言模型給予了珍貴見解和工具。此論文成為理解並面對語言模型未來擴展極限不可或缺的重要文獻,值得深入研讀與持續關注。


論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264

沒有留言:

張貼留言