2026年7月1日 星期三

Scaling Data-Constrained Language Models

近年來,語言模型(Language Models, LM)規模擴張的主流策略,除了持續增大參數數量,還有不斷擴充訓練資料集的規模。這樣的趨勢在過去幾年中推動了模型性能的顯著提升,從數十億參數一路躍升到數千億參數。然而,隨著訓練語料主要來源為網路文本,能夠獲得的高品質、大規模且多樣化資料存在明顯上限,造成本文作者Muennighoff等人在NeurIPS 2023會議上發表的論文《Scaling Data-Constrained Language Models》中提出了重要的問題:當訓練資料數量受到限制時,語言模型該如何有效擴展?在資源受限的「資料瓶頸(data-constrained)」環境下進行大規模語言模型訓練的理論與實務挑戰是什麼?

研究背景與動機

傳統大型語言模型的性能提升一直依賴「參數數量 × 訓練資料量」的雙重擴展,並以此作為提升預測準確度和泛化能力的核心策略。然而,隨著大規模爬取的網路文字逐漸被重複利用,甚至有部分資料受限於版權問題,未來可取得的多樣化語料將趨近飽和。此外,資料擴充本身成本高昂,儲存與預處理需求龐大,讓「訓練資料受限」成為不可忽視的現實挑戰。如何在有限資料下有效利用計算能力最大化模型效能便成為當前急需解決的問題,這正是本論文所聚焦的核心。

核心方法與創新

本論文最大亮點在於系統性探究在資料有限且須重複利用此資料的前提下,語言模型的訓練策略與擴展法則。作者進行了超過400組實驗,涵蓋從數十億到9000億訓練tokens、以及從數百萬到90億參數的模型。實驗的設計關鍵在於調整「資料重複次數」與「計算預算」兩個關鍵維度,觀察重複資料對模型訓練收斂及性能的影響。

具體而言,作者發現:

  • 在固定計算預算下,反覆利用資料至多4個epoch(即資料使用4次)時,模型損失下降幅度與使用全新獨特資料相差無幾,顯示資料重複一定程度上不會顯著傷害訓練效果。
  • 然而,當資料重複超過4次,模型對額外計算的收益開始明顯遞減,最終進到「計算回報為零」的狀態,意味著重複利用資料過多將導致計算資源浪費。

基於實驗數據,作者提出一套針對受限資料情況的「計算最適性擴展定律(compute optimality scaling law)」,此定律能夠量化評估多次重複資料所帶來的邊際效益遞減,以及模型參數過剩時的效用衰減。這項理論突破,不僅補足了目前以「訓練資料量無限制」為前提的傳統擴展定律,還提供了一個可操作且可量化的框架,幫助研究及產業在「資料受限」條件下思考資源分配與模型設計。

此外,論文同時探討了緩解資料稀缺的實際策略,包括:

  • 將程式碼資料(code data)納入訓練集,利用程式語言的結構特性提升模型泛化與學習深度。
  • 移除常見的資料過濾規則(如刪除重複句子、過濾罕見詞語等),以最大化有效可用資料量。

主要實驗結果

本研究藉由大量訓練實驗驗證了幾項重要觀點。首先,在900億token的資料上,模型訓練4個epoch的重複非但沒有損失模型性能,反而對計算效率有助益,表示有限資料時合理的重複使用是可行且必要的策略。其次,超過4次重複後的訓練回報開始加速遞減,計算資源利用的邊際效益幾乎為零,這提供工程師在分配資源時的明確指引。

論文提出並驗證的「擴展定律」能準確預測模型在不同資料重複率及參數大小下的損失表現,為未來在資料嚴重受限時設計語言模型架構與訓練方案,提供了理論基礎。此外,加入程式碼資料後的模型在語言理解與生成任務上展現更佳泛化能力,證明跨域資料的融合能有效緩解純文本資料限制。

對 AI 領域的深遠影響

本論文的研究成果對當前以及未來的語言模型開發具有重要指導意義。隨著巨量語言模型架構不斷擴大,資料瓶頸問題將愈發尖銳,如何高效利用有限高品質資料是AI研究及應用的一大挑戰。該論文不僅提出了一個理論上量化資料與計算互動關係的尺度定律,更在工程實務層面提供了操作性策略,促進有限資源下最大化模型效能的研究與產業實踐。

具體而言,該工作:

  • 推翻以往「資料越多越好」的盲目擴充假設,示範在資料受限條件下合理重複資料可保證訓練效能。
  • 提出新的計算資源分配策略,避免過度計算產生資源浪費,促進綠色AI與計算效率最大化。
  • 透過開放400組訓練模型與資料集,為整個社群提供了重複資料訓練的寶貴基準與資源,推動後續相關研究。
  • 提出資料擴充與多域資料融合(text + code)路徑,為面對資料匱乏的低資源語言與應用場景提供新思路。

綜合來說,Muennighoff等人這篇《Scaling Data-Constrained Language Models》是現階段語言模型規模擴展研究的重要里程碑,特別是在資料不足的限制條件下,如何合理分配計算和資料是模型成功的關鍵。相信該論文的理論貢獻與實驗洞見,將引領下一波語言模型研發面向更加有效率且環境友善的方向發展。


論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264

沒有留言:

張貼留言