隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域的重要性日益提升,過去幾年來主流的擴展策略,普遍是同時增加模型參數數量與擴大訓練數據規模。這種策略在多項任務中獲得了成功,推動了模型性能不斷向前突破。然而,隨著訓練數據規模逼近網路上公開可用文字資源的上限,數據匱乏的問題也漸漸浮現,迫使研究社群開始反思「在數據有限的情況下,如何持續有效擴大語言模型性能」這一課題。來自 Muennighoff 等人在 NeurIPS 2023 發表的論文《Scaling Data-Constrained Language Models》即是針對此一「數據受限(data-constrained)」的擴展環境,給出深入而具體的理論與實驗分析,並取得傑出論文候選的肯定。
研究背景與動機
以往語言模型的擴展多依賴龐大、多元且幾乎無限的網路語料,隨著越來越大的模型問世,訓練所需的資料量也呈現指數成長趨勢。理論上,若數據量無上限,合理的策略是同步增大參數量與數據量,以達到最佳性能。可是,實際上網路語料有限,尤其在多語言、專業領域或小語種身上更是如此。本文立基於此限制,探討當訓練數據不可無限擴張、計算資源固定的前提下,模型規模與訓練策略應如何調整,才能以有限數據達到最佳效能。
核心方法與創新
此研究的核心在設計一系列系統化的實驗,跨越多種訓練數據規模、重複輪次(epochs)、計算預算及參數規模,最大訓練規模達 9000 億個 token,模型最大規模則達 90 億參數。研究團隊深入觀察在數據有限、必須進行多次重複訓練時,訓練損失與模型表現的變化規律。
這裡創新的重點在於提出並驗證一種新的「計算最佳化縮放律(compute optimal scaling law)」,該定律考慮了已重複使用數據所帶來的邊際效用遞減與額外模型參數的收益變化。傳統縮放律假設固定數據每個 token 都能帶來平均效益,但在數據重複多次的情況下,此假設失效。透過引入「重複數據的效用折扣因子」與「過剩參數的遞減回報」,新縮放律更貼近現實訓練環境,提供更精準的計算資源分配策略。
此外,為解決數據稀缺問題,論文還嘗試不同策略,如將程式碼資料(code data)納入訓練語料,或放寬常見的過濾規則(如過濾掉過於重複或品質較低的文字),以擴充可用資料的質與量。這部分實驗為數據有限時的資料增強提供寶貴見解。
主要實驗結果
實驗結果顯示,在有限資料且固定計算預算的狀態下,經過至多4個 epochs的重複訓練,模型的交叉熵損失相較於使用同量獨特資料差距非常小,這意味着多次重複訓練在短期內不會顯著損害性能。然而,當重複輪次繼續增加時,長期來看重複數據的邊際效用開始急劇下降,此時增加更多計算資源(例如更大模型或更多訓練步數)對於降低損失的幫助幾乎不再存在。
基於這些觀察,研究人員成功構建一套數學模型來預測在不同數據重複率參數下,計算資源應如何分配才最有效率。該模型無需假設海量資料可用,較切實地描述了數據受限情況下的計算與數據折衷關係。
在資料擴充方面,添加程式碼資料到訓練集顯著提升了模型在語言和邏輯推理任務上的表現,說明跨種類資料的融入是一條可行的數據補充路徑。放寬過濾條件則以實務觀點示範,如何在數據有限時挖掘更多訓練資源。
對 AI 領域的深遠影響
此篇論文的重要性在於系統化揭露了現今語言模型擴展路徑中往往被忽視的「數據限制」問題,提供了針對「資料有限、多次重複訓練」場景下的新思維與理論工具。當前大型模型訓練成本飆高,且可用數據無法無限擴增的現實條件下,理解計算、數據及模型規模三者間的最佳配置尤為重要。
從產業角度,這有助於語言模型開發者在數據取得困難或成本過高的環境中,合理規劃計算資源,有效延長數據價值,同時避免過度浪費運算能力。學術上,此研究促使社群重新思考縮放律的基本假設,開啟更貼近實務應用的模型設計與理論研究方向。
更廣義來看,專注於「資料受限」的研究能促進更多多語言、小語種及專業領域語言模型的發展,減少對英文等資源豐富語料的依賴,降低語言技術發展的不平衡問題,有助科技公平與普惠。
論文團隊釋出超過 400 次訓練實驗的模型與數據,也為後續相關研究提供了堅實的基礎與開源資源,推動整個領域朝向更加系統化且可重複的研究標準邁進。
總結
《Scaling Data-Constrained Language Models》一文,結合龐大、精密的實驗與嚴謹的理論分析,揭示了在訓練數據稀缺且必須重覆使用的情況下,語言模型擴展的瓶頸與優化策略。它不僅填補了過去對數據限制情況理論的空白,更提供了切實可行的實務指導,對於模型設計者、資源有限的研究者與產業應用皆具有深遠意義。這項工作彰顯了 AI 發展中除了追求更大數據與參數,更應重視如何更智慧且有效地運用有限資源。
論文資訊
📄 Scaling Data-Constrained Language Models
👥 Muennighoff, Rush, Barak, Scao, Piktus et al.
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.16264

沒有留言:
張貼留言