2026年5月13日 星期三

Learning Dynamics of LLM Finetuning

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域的廣泛應用,如何有效地對這些龐大的預訓練模型進行微調(finetuning),以滿足特定任務或使用者需求,成為當前研究的重要課題。然而,LLM 微調過程中模型行為的動態變化、內在機制及其對模型最終生成質量的影響,至今仍缺乏細緻且系統的解析。Ren 與 Sutherland 在 ICLR 2025 提出的論文《Learning Dynamics of LLM Finetuning》便從「學習動態」的角度出發,提出一套嶄新分析框架,系統性地解讀 LLM 微調過程中,模型對訓練樣本影響如何在不同回應間累積與傳遞,探究微調所帶來的行為改變與潛在風險,並進一步指引更有效的微調策略。本論文因其深刻洞察與廣泛適用性,榮獲本屆 ICLR 優秀論文獎(Outstanding Paper)。

研究背景與動機

近年來,LLM 以其強大的語言理解和生成能力在多種下游任務中獲得突破,但模型在預訓練階段所學知識尚無法完全滿足具體應用需求,故需透過微調來調整模型行為。常見微調策略包括指令調整(instruction tuning)和偏好調整(preference tuning),前者使模型更準確對齊人類指令,後者透過對偏好資料進行強化學習等方式優化回應品質。然而,微調過程中經常觀察到的「幻覺現象」(hallucination)——模型生成不正確或無關信息——尤其引發研究者關注。加上複雜的微調策略往往帶來非直覺的行為變化,例如 off-policy 直接偏好優化(DPO)運行過久反而降低輸出質量,這些都反映了現有對微調機制的理解尚不夠深入。

因此,作者希望建立一套理論架構,用以描繪「學習動態」(learning dynamics):即訓練過程中某筆訓練數據如何一步步累積影響模型對其他輸入的預測,藉此解開微調中各種現象背後的因果機制與互動關係。

核心方法與創新

本論文提出了一個系統性的「學習動態分析框架」,透過分解模型參數更新中不同訓練樣本對模型輸出影響的構成,具體來說,作者將微調過程視為一連串梯度步驟,每一步對模型輸出造成的影響可被追蹤和量化,此方法可統一解釋多種微調過程中觀察到的現象。核心創新點包括:

  • 影響累積的階段式解構:作者將影響力分解到每一個訓練步驟,細緻描述訓練樣本如何逐步塑造模型決策邊界與生成策略,有助於理解微調不是瞬間完成,而是動態累積的過程。
  • 跨回應影響分析:框架揭示了微調中,一個問題的回應上下文會如何「借用」另一問題的詞句或事實,導致了特定類型的幻覺現象。例如,模型在回答問題 A 時,可能不自覺重複問題 B 中出現的片段,因為訓練過程中這些資料互相影響。
  • 「壓擠效應」(squeezing effect)的提出:針對觀察到的 off-policy DPO 過度訓練會「抑制」即使是優質答案的生成概率的問題,作者認為這種壓擠效應是由微調過程中的影響累積方式導致,該理論為後續設計更穩健的優化算法提供了理論基礎。
  • 框架的廣泛適用性:不僅涵蓋指令調整、偏好調整,也能解釋多種變體算法的行為差異,該分析方法的通用性卓越。

主要實驗結果

作者選用多種公開及自建數據集,對 GPT 類架構進行多種微調策略實驗,結合學習動態框架做深入解析,主要發現包括:

  • 透過影響力分解,成功追蹤到模型生成中注入幻覺語句的來源,證明模型在微調過程中會因跨訓練樣本的相互作用產生不理想的資訊融合。
  • 在偏好調整的 off-policy DPO 實驗中,長時間訓練確實導致目標回應生成概率下降,框架的「壓擠效應」解釋與實際觀察高度符合,揭示優化過程中的潛在收斂風險。
  • 相比之下,on-policy DPO 及其變種的微調效果更加穩健,分析顯示其受益之處來自於訓練樣本影響力更集中且不易被壓擠,提升了模型對結構化偏好的捕捉能力。
  • 基於框架洞察,作者還提出簡單卻有效的微調改良策略,實驗中展示該策略能顯著提升模型的對齊度與生成質量,尤其在減少幻覺現象方面效果明顯。

對 AI 領域的深遠影響

《Learning Dynamics of LLM Finetuning》在理論與實務上均對大型語言模型的微調研究帶來突破性進展。首先,它開創性地將微調過程中影響力的時間序列累積拆解為可量化與可視化的學習動態,使得原本抽象的「微調效果變化」有了可解析的機制,讓研究者能更深入掌握模型學習的內在邏輯。

其次,通過揭示微調引發幻覺及策略退化問題的根本成因,該框架為模型安全性與可靠性提供了新的檢視視角。這對於日益重要的模型對齊(alignment)研究有著直接而重要的推動作用,尤其當我們期望 LLM 不僅強大而且精確、可信時,更需避免無意識的輸出錯誤信息。

此外,該工作對微調算法的設計與優化提供了實證基礎與理論指導,促進了偏好調整方法如 DPO 等策略的改良,幫助研究社群找到更有效且穩定的訓練流程,減少「過度優化」或「副作用」的出現。

最後,作者的學習動態分析方法具備高度通用性,未來可擴展至其他類神經網路或更廣泛的機器學習管線,對研究模型泛化、遷移學習及調整策略提供有力的工具,推動 AI 模型微調領域邁向更科學和系統化的發展階段。

總結來說,這篇論文不僅加深了我們對 LLM 微調行為的理解,也啟發出具有實務價值的改進方案,助力打造更智能、更安全的語言模型,具有重要的學術地位與實際應用價值。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

沒有留言:

張貼留言