大型語言模型(Large Language Models,LLM)的微調(finetuning)在推動自然語言處理應用發展中扮演關鍵角色。隨著微調技術的日益普及,理解微調過程中模型行為的演變動態,成為解釋並優化模型性能的核心課題。Ren 與 Sutherland 在 2025 年 ICLR 發表的《Learning Dynamics of LLM Finetuning》一文,獲得年度傑出論文獎,提出了一套全新的視角與方法,用以深入剖析 LLM 微調期間模型行為的「學習動態」(learning dynamics),其分析框架不僅揭示許多過去難以解釋的現象,還帶來實務面對模型微調與對齊(alignment)策略的新啟示。
研究背景與動機
大型語言模型微調以提升特定任務表現或符合使用者偏好為目的,包含指令微調(instruction tuning)、偏好微調(preference tuning)等多樣技術路徑。儘管實務上微調已被廣泛採用,研究界對於微調過程中模型如何逐步吸收、匯聚甚至扭曲訓練訊息,缺乏系統性的理解。特別是在微調後,模型生成的「幻覺」(hallucination)現象頻見,模型偶爾會將某問題的答案片段誤用於別的問題,或是反覆使用簡單語句,這些問題嚴重影響模型的可靠度和應用價值。此外,直接偏好優化(Direct Preference Optimization, DPO)在不同訓練階段的行為變化也缺乏明確解析,如離策略(off-policy)的 DPO 過度訓練反而降低想要輸出的機率等怪異行為。
基於此,作者提出以學習動態作為核心,分析微調過程中各訓練示例對模型行為的影響路徑與積累機制,希望用一套統一的數學框架,看看這些微調現象能否被同時解釋與預測,進而促使優化策略的提升。
核心方法與創新
論文以分解式的觀點切入,定義並量化「學習動態」:即訓練過程中,模型對不同答案響應(responses)間的影響如何隨時間步(steps)逐步累積。相較以往多聚焦最終微調結果,研究更注重過程中每一步如何影響其他回答選項的機率分布,實現一種「步驟級」的影響追蹤。
作者設計了一套數學框架,將模型參數更新、輸出概率變化和訓練資料間的交互連結起來,揭示兩類微調常見現象:
- 幻覺強化機制:當模型微調後,某些問題的答案部分成分竟然被誤用於回答其他問題。透過學習動態分解,研究發現模型在微調時部分回答語料過度疊加影響,導致知識片段在不同語境間不當共享,引發幻覺。此外,模型在生成時,因部分簡單短語反覆「累積影響力」,造成回答中重複同類語句的現象。
- 離策略 DPO 的壓縮效應:在離策略直接偏好優化中,進行過多訓練步驟反而導致想要的輸出機率衰退。作者將此現象稱為「擠壓效應(squeezing effect)」,指出過度優化會讓模型聚焦於過度強化的一小組響應,壓縮了其他正向輸出的概率空間。
另外,該框架也分析了在策略微調(on-policy DPO)與其它變種中,模型較易維持或增強目標行為的原因,為現有微調方法的設計提供理論依據。
主要實驗結果
透過對多種類型大型語言模型(例如基於 Transformer 架構的 GPT 或類似模型)的微調實驗,作者以步驟級影響矩陣分析,每個訓練樣本對特定回答的概率變化作定量測量,成功復現並解釋了多項先前文獻報告的微調現象:
- 在指令微調設定中,模型呈現指令語料間交叉影響,符合「幻覺強化」假說。
- 評估離策略 DPO 微調長期效應,明確觀察到「擠壓效應」—經過一定步數後模型傾向選擇更狹窄回應範圍。
- 在對比實驗中,利用提出的理解原理,作者設計了簡單的微調調控策略,限制影響力過度累積,提高了微調後模型的回應多元性與對齊品質。
這些驗證不僅支持理論模型的正確性,也展示其在設計更安全且高效微調流程上的應用價值。
對 AI 領域的深遠影響
本論文對大型語言模型微調研究提供了劃時代的貢獻。以往微調研究多偏重結果導向,而《Learning Dynamics of LLM Finetuning》則從「動態演變」的微觀角度切入,首次系統性的揭示了訓練資料間的影響路徑和積累機制,為未來微調行為的可解釋性研究奠定關鍵基礎。
此框架促使業界與學術界重新思考幻覺產生的內在機制,揭示這並非純粹資料不足或模型容量問題,而是微調過程中影響力分布失衡的結果。未來調控微調影響力的策略有望大幅降低幻覺率,提高生成文本的可靠性,對安全技術與使用者信任均有深遠助益。
此外,對偏好微調領域的理論貢獻尤為重要。文章中提出的「擠壓效應」為理解 DPO 類算法的訓練曲線異常現象提供了理論支撐,也暗示了微調過程的早停技巧與策略微調設計的必要性,促進該類優化手段在工業應用中的更穩健部署。
最後,本研究啟發了更廣泛的機器學習理論分析方向,隨著模型規模日益龐大且微調應用場景多元,學習動態的探索將有助於開發出能更精準反映訓練與推理交互的數學工具,進而提升理解、預測及控制模型行為的能力。
綜合來說,《Learning Dynamics of LLM Finetuning》不僅為理解大型語言模型在微調過程中複雜且微妙的行為變化提供了嶄新的視角,也推動了模型對齊與安全研究的理論基礎與實務方法革新。對未來 AI 技術的安全可靠發展,具有無可估量的積極意義。
論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490
