行有餘力則以學文: Learning Dynamics of LLM Finetuning — ICLR 2025 Outstanding Paper 深度解析

隨著大型語言模型（Large Language Models, LLM）在自然語言處理領域的應用日益廣泛，如何有效進行微調（finetuning）以提升模型的執行效能與行為符合預期，成為當前人工智慧研究的核心課題。微調不僅能夠使模型更適應特定任務或偏好，也經常面對諸如「幻覺」（hallucination）及性能退化等挑戰。Ren 與 Sutherland 在 2025 年 ICLR 上發表的獲獎論文《Learning Dynamics of LLM Finetuning》透過系統性探討微調過程中的「學習動態機制」，為我們理解與改善 LLM 微調提供了全新的視角與方法。

一、研究背景與動機

深度學習系統的訓練往往是一個高度複雜且不易解釋的過程，尤其對於規模龐大、參數眾多的語言模型，更顯無法直觀理解各訓練資料如何影響模型決策。學習動態（learning dynamics）即描述訓練中模型如何一步步積累對不同訓練示例的「影響力」，並進一步如何影響對其他測試輸入的預測表現。過去多為理論推導或粗略觀察，本論文則提出了具體而精緻的框架，能以步驟分解方式，追蹤訓練中每個梯度更新如何改變模型對不同樣本的反應。

更重要的是，微調在 LLM 領域的兩大熱門方向——指令調整（instruction tuning）和偏好調整（preference tuning，尤其是透過直接偏好優化 Direct Preference Optimization, DPO）——常遭遇性能怪現象，例如微調後幻覺現象加劇、甚至長時間執行偏好優化反而導致預期輸出機率下降。釐清這些現象背後的「學習互動機制」是目前缺乏的關鍵。

二、核心方法與創新

論文核心創新在於提出一套系統性的「學習動態分析框架」，此框架可以在微調過程中，逐步分解模型參數更新對「任意兩個輸入－輸出對」（input-output pair）之間影響力的累積過程。具體來說，作者將梯度更新及模型行為變遷視為一連串「影響流動」（influence flows），透過數學上精確建模，能追蹤在每一步微調中，各訓練樣本如何影響模型對其他問題的回答。

基於這套分析工具，作者提出了多項重要洞見：

幻覺問題的假設性解釋： 常見的幻覺如回答中的信息錯亂，可能源自微調過程中模型對不同問題答案之間錯誤的「影響互滲」，例如模型用問題 B 的答案中的片語或事實去回答問題 A，形成回答混淆。
重複簡單片語現象： 微調後模型傾向生成類似、簡單的反覆用語，該框架指出這是因為模型在微調時過度集中部分表達路徑導致「效用空間壓縮」的結果，限制了多樣化輸出的可能。
「擠壓效應」（Squeezing Effect）： 作者進一步擴展框架以研究偏好微調中特殊模式，尤其解釋了在離策略直接偏好優化（off-policy DPO）中，為何執行過久反而讓目標答案機率降低——此現象被視為「擠壓效應」的體現，即模型在長期優化過程中，對最初目標信號的響應空間被過度收斂和壓縮。

此外，該框架同時幫助解析了為何在執行同類偏好微調的「在策略（on-policy）DPO」及其他變體時，能避免上述問題並獲得更穩定、良好的性能提升，揭示了策略選擇背後本質的機理差異。

三、主要實驗結果

為驗證理論與框架的正確性與實用價值，作者以多個大型語言模型和公開指令調整及偏好優化任務進行實驗，成果涵蓋以下幾點：

學習動態分解的可視化： 利用該方法可視化微調過程中不同訓練示例間的影響力流轉，直觀呈現模型「知識遷移」和「互相干擾」的細節。
幻覺加劇驗證： 實驗顯示，微調後模型更容易出現答案間影響錯置，支持了幻覺現象源自影響滲漏的假說。
擠壓效應確認： 在 off-policy DPO 實驗中，模型長時間優化確實造成輸出概率下降，並且分析揭示了「空間擠壓」的底層原因，與對比組（如 on-policy DPO）差異顯著。
改進微調策略： 基於理解，作者提出一種簡單的微調調整方法，有效減少幻覺和過度擠壓問題，提升模型與人類偏好的對齊效果。

四、對 AI 領域的深遠影響

此篇論文最重要的貢獻在於，它從理論到實踐架構了「學習動態」這個分析層級，開創了解釋大型語言模型微調內部機制的新途徑。以往 LLM 微調多靠經驗與大規模實驗摸索效果，缺少對於關鍵訓練行為如何影響模型答題策略的具體揭示。作者的影響力分解框架不僅使得微調內部的學習變遷有跡可循，更能針對長期以來的微調「黑盒」現象（如幻覺、過度擠壓、性能退化）提出解釋與解決方案。

此外，該研究對指令調整與偏好調整兩大熱門領域均有重要啟示，尤其是對偏好優化策略的機理優化和設計有實質指導價值。對於未來設計更加符合人類期望、少幻覺、穩定可靠的對話式 AI，提供了關鍵理論基石。

最後，這個「學習動態」框架具備跨模型、跨微調任務的普適性，未來能應用於多種深度學習系統的訓練解讀與優化中，促進 AI 模型訓練更加透明化與可控化，是一項里程碑式的理論與實踐結合創新。

總結而言，《Learning Dynamics of LLM Finetuning》不僅在解釋大型語言模型微調過程中揭示了核心機制，並為改善模型輸出質量和穩定性指明方向，因而榮獲 ICLR 2025 的 Outstanding Paper，值得深度學習研究及工程界高度關注與後續開展。

論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

行有餘力則以學文

常用資訊速查

2026年4月6日星期一

Learning Dynamics of LLM Finetuning — ICLR 2025 Outstanding Paper 深度解析

一、研究背景與動機

二、核心方法與創新

三、主要實驗結果

四、對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

2026年4月6日 星期一

Learning Dynamics of LLM Finetuning — ICLR 2025 Outstanding Paper 深度解析

一、研究背景與動機

二、核心方法與創新

三、主要實驗結果

四、對 AI 領域的深遠影響

沒有留言:

張貼留言

2026年4月6日星期一