2026年4月30日 星期四

Learning Dynamics of LLM Finetuning

在大型語言模型(Large Language Models, LLM)的發展過程中,微調(Finetuning)技術不僅極大地提升了模型在各種下游任務上的表現,也讓模型更符合特定應用需求,如指令調教(Instruction Tuning)或偏好優化(Preference Tuning)。然而,關於模型在微調過程中的學習動態如何作用、為何會產生例如幻覺(hallucination)現象,或是調優策略的優缺點,仍缺乏系統且具體的理論解釋。Ren 與 Sutherland 在 2025 年 ICLR 的論文《Learning Dynamics of LLM Finetuning》即針對此議題提出了創新的分析框架,成功揭示了微調過程中模型行為演變的內在機制,並以此解釋多項長期存在的現象,為 LLM 調教提供深度理解和實務指引。

研究背景與動機

隨著 GPT、PaLM、LLaMA 等大型語言模型的盛行,微調技術成為精細調整模型性能與風格的關鍵。一般來說,微調可分為指令微調(讓模型更精確地執行用戶指令)與偏好微調(利用人類反饋優化模型回答品質,常用代表算法包括直接偏好優化 Direct Preference Optimization, DPO)。然而,這些調教過程中模型學習的「動態行為」— 即微調中模型如何吸收特定訓練數據對整體輸出的影響,卻極少被深入剖析。

具體而言,過往研究多關注最終模型效能或損失函數變化,卻缺少對「影響力」在訓練過程中是如何逐步累積,甚至互相干擾的視角。這導致我們對微調過程中常見問題的根源理解模糊,例如:為何微調後反而會加劇幻覺,使模型答題時引用錯誤信息或反覆使用簡單片語?為何 DPO 若訓練過頭,反而會讓好回答變得「不太可能」?更重要的是,缺乏統一理論框架,限制了我們針對不同微調算法設計更有效策略的能力。

核心方法與創新

本論文的核心貢獻是提出一套「學習動態分析框架」(Learning Dynamics Framework),該框架透過逐步分解模型在每次訓練更新中不同答案選項的影響力累積,量化特定訓練樣本如何改變模型對其他輸入的預測傾向。具體而言,作者將微調過程視為一連串的小更新,每次更新能夠影響模型在所有輸出選項上的分布,並透過數學解析揭示了影響力如何跨步驟(step-wise)累積及轉移。

在此基礎上,本研究統一解釋了指令微調和偏好微調中多個關鍵且此前難以理解的現象。例如,模型在回答問題 A 時借用問題 B 的回答片段,導致幻覺語句的產生,作者以影響力交叉傳遞(cross-example influence propagation)的概念為核心原理給出定量分析。這種交叉影響在微調中被不經意地放大,因而使幻覺現象更明顯。

此外,對偏好微調中的 DPO 演算法,論文提出一個被稱為「擠壓效應」(squeezing effect)的新概念。此效應揭示在 DPO 持續迭代過久時,好的輸出不斷被壓縮概率空間,反而變得不那麼可能被模型生成,導致過度擬合或「過頭調教」問題。該框架也區分了「離線」與「在線」DPO 的效果差異,從影響力動態角度洞察兩者背後的本質差別。

最後,基於這套理論分析,作者提出一種簡單但效果顯著的微調策略,能改善模型的對齊品質(alignment),即提高模型生成符合人類預期且不產生幻覺的回答能力。

主要實驗結果

作者在多個大型語言模型和微調數據集上驗證了理論框架的有效性。首先,通過計算並可視化訓練階段不同樣本間「影響力傳播矩陣」,實證了指令微調中模型回答間互相干擾、幻覺加劇的機制。這些分析清晰揭示出了訓練數據的特定語句如何被模型錯誤「借用」,與論文假設完美吻合。

在偏好微調試驗中,透過控制 DPO 迭代步數,實驗展示了「擠壓效應」的出現:當迭代步數過高,模型對理想回答的生成概率下降,性能不升反降。此現象以往僅是經驗觀察,論文框架首次提供明確理論解釋。此外,作者進一步比較了在線與離線 DPO,發現在線方法透過動態調整數據分佈,有效減緩擠壓效應,從而獲得更穩定且優良的效果。

通過將新提出的微調策略應用於基準模型,實驗結果顯示該方法能降低幻覺率、提升指令跟從度,並在多個評估指標上超越原始調教算法。作者同時開源了相應分析工具,促進社群未來對微調動態的深入探索。

對 AI 領域的深遠影響

《Learning Dynamics of LLM Finetuning》為巨大黑盒般的 LLM 微調過程注入了難得的「動態視角」。過去,人們對模型如何一步步接受知識、調整輸出總是藉由靜態指標如準確率或損失,無法透徹了解內部機理。該論文突破性地將訓練影響力的逐步累積機制形式化,建立了一座理論與實踐銜接的橋樑,這不只是對學術界理解微調機制的突破,也為工程師提供了一套可用於調優和排錯的理論利器。

尤其是對幻覺現象的解釋,為設計更健壯的對齊技術指明方向:未來可針對影響力交叉擴散設計控制策略,抑制錯誤信息的傳播。同時對偏好微調中「過頭訓練」的理論化認知,有助於開發具自我調整能力的改善算法,避免模型性能在極端迭代下反而衰退。

總結來說,本論文填補了 LLM 微調理論上的一大空白,使學界與業界不再只能「黑箱微調」,而能夠追蹤、預測並控制模型學習過程中的微妙變化。這對大規模語言模型的持續優化、應用安全性以及人機交互品質有深遠且持久的影響,堪稱未來解決 LLM 對齊困境、抑制幻覺風險的關鍵基石。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

沒有留言:

張貼留言