常用資訊速查

2026年4月6日 星期一

Learning Dynamics of LLM Finetuning — ICLR 2025 Outstanding Paper 深度解析

隨著大型語言模型(Large Language Models, LLM)在自然語言處理領域的應用日益廣泛,如何有效進行微調(finetuning)以提升模型的執行效能與行為符合預期,成為當前人工智慧研究的核心課題。微調不僅能夠使模型更適應特定任務或偏好,也經常面對諸如「幻覺」(hallucination)及性能退化等挑戰。Ren 與 Sutherland 在 2025 年 ICLR 上發表的獲獎論文《Learning Dynamics of LLM Finetuning》透過系統性探討微調過程中的「學習動態機制」,為我們理解與改善 LLM 微調提供了全新的視角與方法。

一、研究背景與動機

深度學習系統的訓練往往是一個高度複雜且不易解釋的過程,尤其對於規模龐大、參數眾多的語言模型,更顯無法直觀理解各訓練資料如何影響模型決策。學習動態(learning dynamics)即描述訓練中模型如何一步步積累對不同訓練示例的「影響力」,並進一步如何影響對其他測試輸入的預測表現。過去多為理論推導或粗略觀察,本論文則提出了具體而精緻的框架,能以步驟分解方式,追蹤訓練中每個梯度更新如何改變模型對不同樣本的反應。

更重要的是,微調在 LLM 領域的兩大熱門方向——指令調整(instruction tuning)和偏好調整(preference tuning,尤其是透過直接偏好優化 Direct Preference Optimization, DPO)——常遭遇性能怪現象,例如微調後幻覺現象加劇、甚至長時間執行偏好優化反而導致預期輸出機率下降。釐清這些現象背後的「學習互動機制」是目前缺乏的關鍵。

二、核心方法與創新

論文核心創新在於提出一套系統性的「學習動態分析框架」,此框架可以在微調過程中,逐步分解模型參數更新對「任意兩個輸入-輸出對」(input-output pair)之間影響力的累積過程。具體來說,作者將梯度更新及模型行為變遷視為一連串「影響流動」(influence flows),透過數學上精確建模,能追蹤在每一步微調中,各訓練樣本如何影響模型對其他問題的回答。

基於這套分析工具,作者提出了多項重要洞見:

  • 幻覺問題的假設性解釋: 常見的幻覺如回答中的信息錯亂,可能源自微調過程中模型對不同問題答案之間錯誤的「影響互滲」,例如模型用問題 B 的答案中的片語或事實去回答問題 A,形成回答混淆。
  • 重複簡單片語現象: 微調後模型傾向生成類似、簡單的反覆用語,該框架指出這是因為模型在微調時過度集中部分表達路徑導致「效用空間壓縮」的結果,限制了多樣化輸出的可能。
  • 「擠壓效應」(Squeezing Effect): 作者進一步擴展框架以研究偏好微調中特殊模式,尤其解釋了在離策略直接偏好優化(off-policy DPO)中,為何執行過久反而讓目標答案機率降低——此現象被視為「擠壓效應」的體現,即模型在長期優化過程中,對最初目標信號的響應空間被過度收斂和壓縮。

此外,該框架同時幫助解析了為何在執行同類偏好微調的「在策略(on-policy)DPO」及其他變體時,能避免上述問題並獲得更穩定、良好的性能提升,揭示了策略選擇背後本質的機理差異。

三、主要實驗結果

為驗證理論與框架的正確性與實用價值,作者以多個大型語言模型和公開指令調整及偏好優化任務進行實驗,成果涵蓋以下幾點:

  • 學習動態分解的可視化: 利用該方法可視化微調過程中不同訓練示例間的影響力流轉,直觀呈現模型「知識遷移」和「互相干擾」的細節。
  • 幻覺加劇驗證: 實驗顯示,微調後模型更容易出現答案間影響錯置,支持了幻覺現象源自影響滲漏的假說。
  • 擠壓效應確認: 在 off-policy DPO 實驗中,模型長時間優化確實造成輸出概率下降,並且分析揭示了「空間擠壓」的底層原因,與對比組(如 on-policy DPO)差異顯著。
  • 改進微調策略: 基於理解,作者提出一種簡單的微調調整方法,有效減少幻覺和過度擠壓問題,提升模型與人類偏好的對齊效果。

四、對 AI 領域的深遠影響

此篇論文最重要的貢獻在於,它從理論到實踐架構了「學習動態」這個分析層級,開創了解釋大型語言模型微調內部機制的新途徑。以往 LLM 微調多靠經驗與大規模實驗摸索效果,缺少對於關鍵訓練行為如何影響模型答題策略的具體揭示。作者的影響力分解框架不僅使得微調內部的學習變遷有跡可循,更能針對長期以來的微調「黑盒」現象(如幻覺、過度擠壓、性能退化)提出解釋與解決方案。

此外,該研究對指令調整與偏好調整兩大熱門領域均有重要啟示,尤其是對偏好優化策略的機理優化和設計有實質指導價值。對於未來設計更加符合人類期望、少幻覺、穩定可靠的對話式 AI,提供了關鍵理論基石。

最後,這個「學習動態」框架具備跨模型、跨微調任務的普適性,未來能應用於多種深度學習系統的訓練解讀與優化中,促進 AI 模型訓練更加透明化與可控化,是一項里程碑式的理論與實踐結合創新。

總結而言,《Learning Dynamics of LLM Finetuning》不僅在解釋大型語言模型微調過程中揭示了核心機制,並為改善模型輸出質量和穩定性指明方向,因而榮獲 ICLR 2025 的 Outstanding Paper,值得深度學習研究及工程界高度關注與後續開展。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

沒有留言:

張貼留言