2026年6月19日 星期五

Learning Dynamics of LLM Finetuning

在當前大型語言模型(Large Language Models, LLM)蓬勃發展的背景下,模型微調(finetuning)成為調整和優化模型行為的關鍵步驟。微調不僅允許模型在特定任務上提升表現,也涉及模型如何調整內部知識表徵與預測機制的深層變化。儘管微調效果顯著,但其背後的學習動態機制仍未被充分理解,尤其是在微調過程中,不同訓練樣本對模型最終行為的影響如何累積與演變,依然是一大研究挑戰。

針對此種情況,Ren 與 Sutherland 在其 2025 年 ICLR 獲獎論文《Learning Dynamics of LLM Finetuning》中,提出了一套創新的學習動態分析框架,旨在深入剖析大型語言模型微調中的「影響流動」機制。他們藉由步驟式分解訓練中不同輸入樣本對模型各種潛在回應所累積的影響,首次系統性地描述了微調階段的內部動態。此框架不僅為理解常見教學微調(instruction tuning)與偏好微調(preference tuning)中觀察到的行為現象,提供統一的理論基礎,更在實證上揭露一系列微調後出現的「幻覺」現象(hallucination)發生機制。

研究背景與動機

隨著LLM微調技術的廣泛應用,研究者逐漸發現微調不僅改變模型對指定任務的準確度,還會造成一些意外副作用,例如對特定錯誤答案的重複產生,或是在回答中引用未經證實或錯誤的資訊,導致「幻覺」問題加劇。這類問題對模型的應用安全和可靠性有重大負面影響。現有研究多聚焦於調整微調算法或損失函數,但缺少一個能解釋為何微調過程中會產生這些現象的理論框架,亦鮮少能揭示微調步驟中影響是如何從訓練資料流動到模型回應。

此外,另一困惑來自於偏好調整(Direct Preference Optimization, DPO)方法:在off-policy DPO中,持續優化反而可能讓理想輸出概率下降,與直覺不符。此種現象的根本原因尚無清晰說明,甚至有些實踐者對較短的優化步數有所顧忌。Ren與Sutherland藉由全新學習動態框架,試圖破解這些微調中棘手的問題,期望為模型調整提供更有力的理論支持。

核心方法與技術創新

本論文提出的主要創新,是將模型在微調過程中對訓練樣本的學習影響,視作一種「影響矩陣」並進行步驟拆解。具體而言,作者將微調視為一連串梯度更新過程,利用解析方法計算每次更新對模型回答不同問題的影響大小與方向,進而追蹤影響如何在整個數據集上累積與擴散。

此框架具有高度通用性,可被用來分析包括instruction tuning和preference tuning等多種微調策略。值得注意的是,作者利用此方法揭示了兩種常見幻覺現象的內在機制:一是模型會錯誤地將一題的答案用於另一題,形成跨問題混淆;二是模型在生成回答時反覆使用相似的簡單片段,造成語義重複。這些現象本質上源於「影響流」的錯誤聚集,即微調步驟中某些訓練點的影響被過度放大,導致模型在決策邊界上的盲點。

此外,論文中針對DPO揭露了「壓縮效應(squeezing effect)」,該效應描述了在off-policy直接偏好優化中,長時間優化使得模型某些答案概率在競爭中被「擠壓」變低的奇特現象。透過學習動態分析,作者合理解釋此現象並進一步對比了on-policy DPO和其它變體的優勢根源,提供對設計更穩健優化算法的深入方向。

主要實驗結果

在實驗評估部分,作者在多個大型語言模型和微調任務上驗證了其學習動態框架的有效性。首先,他們成功重現了微調後「幻覺」現象,並利用框架中的影響拆解,精確定位容易出現影響誤導的資料樣本及問題類型。結果顯示,學習動態可預測微調後模型回應中錯誤或重複模式的形成。

其次,針對偏好微調,論文系統性分析了DPO不同運行時間的影響,證實「壓縮效應」存在於off-policy DPO且影響模型性能。其後提出的改良策略,不僅緩解了不良壓縮,還提升了模型對長尾偏好信號的擬合能力。這些結果不僅驗證了學習動態框架的預測力,也指引了微調策略的最佳實踐。

最後,作者基於理論洞察,提出一種簡單的對齊提升方法,透過調控訓練過程中不同數據樣本的影響權重,有效減少幻覺比例並提升對應指令執行的準確度。該方法在多種真實場景微調實驗中展現出明顯優勢,並且實施成本低,具備良好的推廣潛力。

對 AI 領域的深遠影響

本論文的貢獻不僅停留在提出新的理論視角,更在於它為LLM微調中複雜、動態的學習行為提供了可操作的「顯微鏡」。這種細膩的步驟式影響分析方法,使研究者能夠直觀理解微調過程中模型行為改變的因果關係,從而從根本上破解幻覺與偏好失調等挑戰。

長遠而言,這套理論框架促使後續研究能更精細地設計訓練數據分布及優化策略,提升模型的安全性與可靠性。尤其在生成式 AI 與人機交互日漸深入社會的時代裡,透過掌握學習動態,可有效減少誤導資訊、增強模型解釋性與可控性,促進技術應用的倫理負責。

此外,框架對於先進微調方法如偏好學習、增強學習等趨勢提供了理論支持,能幫助設計更優越的迭代機制與樣本加權策略,最大化人類價值觀與需求的落地匹配。也有助於拓展跨領域協作,融合認知科學、因果推論等理論,深化 AI 系統本質機制的理解。

綜上所述,《Learning Dynamics of LLM Finetuning》通過系統的學習動態分析,揭露了大型語言模型微調過程中深層且精細的影響構造,並破解了多種困擾現實應用的關鍵難題,其理論創新與實踐價值將深刻推動大型語言模型設計、優化與安全研究的發展,是一篇具有劃時代意義的優秀論文。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

沒有留言:

張貼留言