在當前語言模型發展趨勢中,模型規模(參數數量)與訓練資料規模兩者幾乎同步擴展,反覆印證「更大模型搭配更多資料」往往能帶來性能提升。然而,隨著網絡上可獲取的純文本資料逐漸成為稀缺資源,未來的語言模型訓練很可能面臨「資料瓶頸」的限制。Muennighoff 等人於 NeurIPS 2023 發表的《Scaling Data-Constrained Language Models》一文,正是圍繞「資料受限」的現實困境,系統地探討如何在數據有限的情況下有效擴大語言模型規模並最大化訓練效益。
研究背景與動機
傳統的語言模型擴大策略基於兩個前提:充足的龐大語料及巨量計算資源。大規模語言模型如 GPT-3、PaLM 等,從數以百億到數千億的參數及相應規模的巨量資料中獲益良多。然而,這種模式隨著網際網路中可用高品質純文本的飽和,已逐漸接近極限。資料稀缺意味著訓練語言模型的資料將不得不重複使用,這將對模型「學習效率」產生重大影響,但目前關於資料重複利用如何影響擴展策略的研究相對有限。
本論文正是在此問題驅動下,提出針對資料受限情況展開實證與理論分析。不僅深入探討重複資料的利用效益,還提出了可幫助設計「資料受限下最佳運算規模」的擴展定律(scaling law),這對未來模型設計與訓練計劃制定有高度應用價值。
核心方法與創新
研究團隊設計並執行超過 400 組大規模訓練實驗,涵蓋參數規模從數億到90億、訓練 Token 上限達9000億的龐大範圍變量,精細調控資料集的重複次數(epoch數)及運算預算(compute budget),以量化資料重複對訓練效益的影響。
在理論上,論文最具創新的是提出了一個新的擴展定律,將模型效能與訓練運算資源的最佳分配(compute optimality)視為函數,並且明確考慮了每次重複資料帶來的信息減損效果。這種現實的考量突破了過去擴展法則大多假設資料是無限且唯一的框架,首次構築出一套更接近實務限制的模型設計指導。
此外,研究還嘗試多種緩解資料不足問題的策略,例如將程式碼資料(code data)加入訓練集,以及實驗性地降低資料過濾條件,希望以多樣化資料補充嚴重依賴文本的限制。這些嘗試在一定程度上展示了擴展語言模型在有限語料條件下的多元解法路徑。
主要實驗結果
實驗結果顯示,在資料受限且固定算力的環境下,將資料重複使用至約4個epoch,模型的整體損失(loss)基本不變,這意味著一定程度的重複資料並不會顯著影響模型學習的效果。然而,隨著重複次數進一步增加,訓練的效益明顯下降,此時增加更多計算資源反而無法帶來更好的性能提升,表明「重複資料的邊際效益遞減」現象十分明顯。
應用了提出的擴展定律後,能夠準確預測在不同資料重複率及參數量安排下模型的最優訓練路徑。具體而言,這套定律幫助使用者明確知道何時應透過擴大模型參數、何時應增加獨特的資料樣本,以達到用有限資源最大化性能。
在多樣化資料策略方面,加入程式碼資料確實對語言模型在特定任務(如程式碼生成與理解)上帶來正向影響,且對模型整體語言理解也有輕微提升。放寬過濾條件則增加了資料集規模,改善了資料量瓶頸,但也帶來一定的資料品質波動,如何平衡品質與量化依然需要進一步研究。
對 AI 領域的深遠影響
這篇論文的價值不僅在於深入理解資料有限環境下語言模型的擴展規律,更在於其為後續模型訓練策略的制定提供了理論指引和實踐路線。未來隨著開源文本資源愈來愈有限,如何有效重複利用資料並利用有限算力達到最佳效能,將成為所有大模型開發者必須面對的課題。
研究所提出的擴展定律可作為一個重要參考依據,幫助開發者精準調控模型大小與訓練迴圈,避免不必要的算力浪費。此一理論與實證相結合的框架,也促進了對資料與模型擴展動態關係的更系統理解,未來有望拓展到多模態學習、大模型微調、資料多樣性優化等更多維度。
最後,團隊公開了龐大且多樣的實驗模型與資料集,促進整個社群在「資料受限」的大語言模型研究上有更多實驗重複與成果推進,是研究透明化與開放科學的重要里程碑。
總結
《Scaling Data-Constrained Language Models》在語言模型進入資料稀缺時代後,給出了一條清晰且實用的擴展路徑,結合理論擴展定律與龐大實證實驗,釐清了資料重複使用的效益極限與最佳算力分配。對於AI工程師和研究生而言,該論文是深入理解並實務操作有限資料大模型訓練不可多得的經典參考文獻,也為未來大規模語言模型的可持續發展鋪設了科學基礎。
論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264

沒有留言:
張貼留言