2026年6月28日 星期日

Learning Dynamics of LLM Finetuning

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域的廣泛應用,如何透徹理解其在微調(finetuning)過程中的學習動態,成為了AI研究中的一大挑戰與熱點。Ren與Sutherland於2025年ICLR發表之傑出論文《Learning Dynamics of LLM Finetuning》,正是針對此議題提出創新分析框架,旨在深入剖析不同微調策略下模型學習的行為及其演進機制,並對訓練過程中常見的現象如「幻覺」問題和直接偏好優化(Direct Preference Optimization, DPO)效果退化提出理論解釋。

研究背景與動機

大型語言模型因其龐大參數量與複雜的訓練數據,使得其微調過程充滿不可預測性與不透明性。尤其在應用層面,透過指令微調(instruction tuning)或偏好微調(preference tuning)來提升模型輸出對使用者意圖的對齊(alignment),已成為提升模型實用性的重要方法。然而,在微調過程中,模型行為可能出現不盡理想的現象,例如微調後產生錯誤資訊的「幻覺」加劇、或是直接偏好優化訓練時間過長反而令期待的輸出概率下降。這些現象不僅困擾AI工程師,亦限制了微調方法的進一步優化。

傳統對學習過程的理解多停留在宏觀的性能提升或損失變化,而缺乏分析單個訓練樣本對模型整體行為影響的微觀視角。於是,本論文提出「學習動態」(learning dynamics)的概念,即通過分解學習過程中,特定訓練樣本如何影響模型對其他輸入的預測路徑與決策,來全面揭示微調的內在運作機制。

核心方法與創新

作者設計了一套框架,透過分步驟的影響力累積分析,量化每一個訓練樣本如何逐漸改變模型在不同回應上的行為。此方法不僅能統一解析指令微調與偏好微調中的學習過程,還首次從理論層面提出具體假設來解釋微調後常見的幻覺現象。

具體而言,研究發現模型在微調過程中會出現一種交互干擾效應,如在回答問題A時,模型可能錯誤地借用對問題B相關的表述或事實,導致產生不準確或重複的簡單片語。這種「資訊錯位」現象,是傳統方法無法有效捕捉的,而本框架透過動態影響分析,成功將其建模展現。

此外,論文也深入探討偏好微調中「擠壓效應」(squeezing effect)。在離政策(off-policy)的DPO方法中,持續訓練過久反而會讓模型降低生成理想答案的概率,這看似反直覺的現象,透過作者框架中對影響力累積的分析得以合理化解釋。相對地,作者也指出,在政策(on-policy)DPO等變體中,適當的訓練策略如何避免此效應,從而收穫更穩定且強化的性能提升。

最後,該框架不僅揭露了微調過程的本質性質,也基於此基礎提出了一種簡潔而高效的微調方法,進一步強化模型對齊效果,大幅提升調教效率和模型可靠性。

主要實驗結果

作者利用多種大型開源與商業語言模型,系統性地驗證他們的分析框架與假設。實驗涵蓋不同類型的微調任務,包括指令微調、基於人類偏好的強化學習(RLHF),以及直接偏好優化。

  • 幻覺現象的增強機制:實驗透過分析單步訓練影響力,成功捕捉到微調中常見幻覺錯誤的來源,並指出模型如何在不同問題答案間出現信息「污染」與重複性融合,這也解釋了為何簡單重複片語經常被生成。
  • DPO擠壓效應驗證:離政策DPO隨訓練步數增加導致理想輸出概率下降的行為,在作者的學習動態框架下得到定量評估。並透過比較不同DPO訓練策略,展示如何有效避開此負面效應。
  • 實際效能提升:提出的改良微調方法在多項下游任務中,相較傳統方法達到顯著更好的用戶對齊指標與語言生成質量。

對AI領域的深遠影響

本論文對大型語言模型微調的理解帶來了革命性的視角,從微觀的學習影響力分解出發,為以往缺乏理論支撐的各種現象提供了有力解釋。尤其在模型「幻覺」問題日益受到關注的當下,提供了一條清晰的診斷途徑,後續研究可基於此設計針對性的修正策略。

另一方面,對直接偏好優化方法中訓練極限與穩定性的洞察,將推動該類強化學習微調技術進一步完善,使得模型能在更可控的條件下穩健提升用戶對齊。此框架亦可延伸應用於其他更廣泛的微調形式和多模態模型,為人工智慧系統的安全性與可靠性奠定堅實理論基石。

總結而言,Ren與Sutherland的貢獻不僅是技術層面的突破,更為大型模型微調領域注入了一種全新思維模式,鼓勵研究者從動態因果影響的角度審視與設計微調演算法。未來結合此架構與實際系統,將有望加速AI在真實世界應用中的精準且安全部署。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

沒有留言:

張貼留言