行有餘力則以學文: Learning Dynamics of LLM Finetuning

2026年3月29日星期日

Learning Dynamics of LLM Finetuning

在大型語言模型（Large Language Models, LLM）持續推進自然語言處理能力的今天，如何有效且深入理解這些模型在微調（Finetuning）過程中內部行為的演變，成為一個極具挑戰且重要的議題。Ren 與 Sutherland 於 ICLR 2025 發表的論文《Learning Dynamics of LLM Finetuning》，獲得了傑出論文獎（Outstanding Paper），該研究系統性地揭示了 LLM 微調過程中的「學習動力學（Learning Dynamics）」，透過精細分析特定訓練示例如何影響模型對其他示例的預測，為理解及改進微調技術提供了全新視角與理論基礎。

研究背景與動機

隨著基礎模型規模的不斷擴大，純粹依賴預訓練的模型已難以滿足多樣化應用需求，微調技術（如指令微調、偏好微調）成為提升模型特定任務表現及對齊人類期望的重要手段。然而，現有工作多著眼於微調後模型的整體性能改進，對於微調過程中模型如何逐步調整其內部表示、記憶以及生成行為的「動態過程」卻少有量化與理論化的系統探討。

此外，許多實務中觀察到的現象，如某些微調後幻覺（hallucination）現象反而加劇；偏好微調策略如 off-policy Direct Preference Optimization（DPO）運行時間過長導致最佳策略反而被稀釋的問題，也缺乏統一解釋。這些現象乍看難以理解，背後反映的本質學習動態亟需理論工具來揭露。

核心方法與創新點

本論文提出一套全新的分析框架，稱為「學習動力學分解」（Learning Dynamics Decomposition），藉由逐步拆解每一步微調中，個別訓練樣本如何對不同潛在回應的累積影響力產生變化，進而量化模型內部知識更新與行為調整的演進過程。

研究者透過將訓練過程中的梯度更新視為影響向量的累積，追蹤每個訓練數據點對模型生成不同潛在回答的貢獻，這不僅能反映微調中不同類型訓練示例間的相互作用，同時也能解釋微調後觀察到的模型生成行為變化。

以此框架為基礎，作者深入解析指令調優（instruction tuning）與偏好調優（preference tuning）下的不同學習動態，並提出多項創新見解：

透過「跨問題資訊遷移」的假說，解釋了為何微調後模型容易發生特定類型的幻覺，例如模型會用問題 B 的描述片段來回應問題 A，或在產生答案時重複簡單詞組。
發現並界定一項名為「擠壓效應」（squeezing effect）的現象，說明在 off-policy DPO 微調中，過度優化會使本應提升的目標輸出概率反而下降，進一步說明了為何 off-policy DPO 有時間窗口限制，其效益會隨時間衰退。
透過分析學習動態，解釋了 on-policy DPO 及其變種相較於 off-policy DPO，如何利用動態適應來獲得更穩定且有效的對齊提升效果。

主要實驗結果

透過豐富的實驗，作者在多種 LLM 微調場景下驗證了學習動力學框架的有效性：

利用大型公開語言模型與多樣化微調數據，實證展現每一步梯度更新如何影響模型對不同示例的生成分布，成功還原了訓練過程中微妙的資訊傳播路徑。
針對幻覺現象，實驗精確捕捉使用錯誤資料片段回應其他問題的情形，證明模型微調過程中「跨示例混淆」的存在，對未來微調資料挑選與篩選提供了實務指引。
在 off-policy 及 on-policy DPO 微調過程中，量化擠壓效應並用實驗數據支持該效應對模型最終生成分布的影響，進一步證明 on-policy 方法在長期訓練下更能維持生成質量與偏好對齊。
基於學習動力學的洞察，作者提出一種簡單但高效的微調策略改良方法，成功在多個下游任務中提升模型對齊效果，優於傳統微調方法。

對 AI 領域的深遠影響

本論文最具價值之處在於提供了一個系統性且可量化的「學習動力學」理論架構，突破了過去對微調過程中模型行為變化只能事後觀察、難以解釋的困境。此框架不僅豐富了我們對深度學習系統內部演化機制的理解，也為設計更穩健與高效的微調演算法奠定了理論基礎。

具體來說，這項工作為 AI 研究社群帶來以下啟示：

理解模型微調中的知識「傳遞路徑」：揭示了訓練資料間如何互相影響模型表現，對於避免錯誤知識傳播與幻覺產生具有重要指導意義。
推動對偏好微調方法的再認知：透過解析 off-policy DPO 等方法中出現的擠壓效應，驅動了對這類方法本質限制的深入探究，激勵開發更優化的偏好微調策略。
增強模型對齊安全性：學習動力學的分析幫助研究者更精準地調整模型微調過程中引入的偏差與風險，有助於打造符合人類價值觀的安全 AI 系統。
實務應用指導：該框架使得工程師能更合理地設計訓練數據選取、微調步驟和優化時間，提升模型調優效率與效果，降低因過度微調帶來的副作用。

總結來說，Ren 與 Sutherland 的《Learning Dynamics of LLM Finetuning》為當前及未來 LLM 微調研究和應用開啟了一扇嶄新的大門，其理論及實驗成果將深刻影響大型模型微調技術的發展軌跡，促使我們更全面且深入地掌握 AI 模型「怎麼學」以及「學到什麼」的關鍵過程，推動 AI 系統更理性、穩健與可控的演進。

論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490