近年來,大型語言模型(Large Language Models, LLMs)因其卓越的自然語言理解和生成能力,成為人工智慧領域的研究熱點。然而,隨著模型規模的持續擴大,如何有效且深入理解其微調(finetuning)過程中的學習機制,成為提升模型效能與安全性的重要課題。ICLR 2025 年獲獎論文《Learning Dynamics of LLM Finetuning》由 Ren 與 Sutherland 所提出,正是針對此一核心問題,首次系統性地揭示了大型語言模型在不同微調策略下的「學習動態」,並基於此發展解釋模型行為的全新框架。
研究背景與動機
在深度學習與 LLM 的研究中,「學習動態(learning dynamics)」指的是訓練過程中,模型對特定訓練樣本的學習如何影響其對其他樣本預測的行為。理解這一過程,能夠幫助我們揭示模型在微調過程中知識累積、遷移與混淆的本質,進而優化模型性能和減少負面效應。過去多數工作多聚焦微調後的整體效果或靜態權重分析,缺少對「逐步學習過程」的細緻理解,尤其是如何在不同類型微調(如指令微調和偏好微調)中,模型內部對知識的影響流動與交互。
此外,在微調期間常見的「幻覺(hallucination)」現象——模型生成與事實不符的內容,迄今仍未有一致且說服力強的解釋。這篇論文正是在此背景下出發,探索為何某些幻覺在微調後反而被增強,以及偏好微調中觀察到的反常現象,如離策略直接偏好優化(off-policy direct preference optimization, DPO)「過度訓練反效果」的機制。
核心方法與創新
本論文提出一套基於「逐步影響分解(step-wise decomposition of influence)」的數學分析框架,用以深入追蹤在微調過程中,不同訓練樣本間影響的累積機制。具體而言,作者從微調的梯度更新角度出發,量化一個訓練樣本如何通過多輪參數更新影響模型最終對其他問題的預測。此方法超越傳統靜態參數分析,提供動態視角來觀察知識是如何在模型內流動與擴散的。
在指令微調(instruction tuning)的場景中,該框架成功解釋了為何模型在微調後常出現「跨題答覆」(例如模型回應問題A時,錯誤借用問題B的答案或語句)以及「重複簡單片語」的現象。作者將這些現象歸因為不同訓練示例間的影響強度不均,在微調過程中某些信息被「壓擠(squeezing effect)」—即部分答案空間被過度集中,導致知識遷移過度或重複,使模型表現出幻覺與模式退化。
更進一步,論文將此框架擴展至偏好微調,特別是離策略 DPO,揭示為何長時間運行 DPO 反而降低了期待輸出的概率,導致效果退化。透過「壓擠效應」的概念,作者說明了模型在優化偏好時,內部概率分佈被過度縮減,喪失多樣性與穩健性。此外,該分析也幫助解釋了在「在策略 DPO(on-policy DPO)」及其變體中觀察到的性能提升,指出這些方法能有效避免過度壓擠,維持合理的影響擴散。
主要實驗結果
論文在多個標準大型語言模型及其微調任務上進行驗證,涵蓋指令調整和偏好微調兩大類別。透過量化模型在不同訓練步驟中對各回答的影響變化,具體展示了知識影響的流動機制和壓擠現象。實驗結果關鍵包含:
- 指令微調後,跨問題內容誤用和重複表達的頻率顯著增加,與理論模型預測一致。
- 離策略 DPO 訓練中期開始出現.output機率急劇下降,用以支持作者對壓擠效應的假說。
- 在策略 DPO 與改良版微調策略顯著緩解了上述現象,保持高效且穩定的性能提升。
- 基於框架提出的簡單修正方法(如調整梯度權重分佈)改善了對齊性能,減少了幻覺率,且提升了生成回應的一致性。
對 AI 領域的深遠影響
這篇論文的貢獻不僅在於首次系統性揭示大型語言模型微調過程中的學習動態,更在於提供了一種兼具可解釋性與操作性的分析工具。這對 AI 研究尤其有深遠意義:
- 理解與解釋模型行為:利用學習動態的視角,開啟了對複雜模型微調內部機制的解碼新途徑,有助於研究者定位幻覺與錯誤生成的根本原因,提升模型的信賴度與透明度。
- 優化微調策略:根據影響累積的定量分析,能設計更精細的微調條件及監控指標,有效避免過度壓擠,提高微調效率與安全性,尤其對訓練偏好模型(如 RLHF)具有直接指導意義。
- 推動模型對齊進展:論文提出的簡單改進措施,直接提升了模型對齊表現,有望促使大模型能更準確地反映人類偏好與倫理要求,降低錯誤資訊流傳風險。
- 理論與實務的橋樑:綜合理論分析與大量實驗,為後續微調方法的創新與評估提供了堅實的基礎,促進理論與工程的緊密結合。
總結來說,Ren 與 Sutherland 的《Learning Dynamics of LLM Finetuning》不只是揭示了大型語言模型訓練中難以直觀察覺的知識影響流動與信息壓擠現象,更基於此提出了實用且高效的改進策略。此研究無疑成為理解與改良 LLM 微調中不可或缺的理論里程碑,對未來大模型的穩定發展與安全落地具有關鍵推動作用。
論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

沒有留言:
張貼留言