近年來大型語言模型(Large Language Models, LLMs)在自然語言處理領域取得了顯著進展,然而其微調(finetuning)過程中模型行為的變化及其內在機理仍存在諸多未知。由於微調不僅改變模型的性能,也可能帶來如「虛構」(hallucination)等副作用,理解微調時模型的「學習動態」成為一個重要研究議題。本文由Ren與Sutherland發表於ICLR 2025,榮獲Outstanding Paper獎,其核心貢獻是提出一套分析大型語言模型微調過程中學習動態的理論框架,深入剖析多種微調策略下模型如何累積對不同輸出答案的影響,並進一步解釋觀察到的常見現象及其背後原理。
研究背景與動機
大型語言模型的優異性能在於其龐大的參數量與龐雜的預訓練,但為了適應特定任務,微調成為不可或缺的步驟。常見微調策略包括「指令微調」(instruction tuning)與「偏好微調」(preference tuning),後者更是基於人類反饋如強化學習(RLHF)來改善模型的輸出質量。儘管上述技術已經廣泛使用,微調後模型行為變化的內在機制仍未被完整理解,特別是模型有時會產生意料外的錯誤或重複輸出,這些問題亟需理論支持來診斷與改進。
因此,本篇論文聚焦於「學習動態」(learning dynamics)的分析,即研究單一訓練範例如何在隨時間的微調過程中影響模型對其他範例的預測。透過這種逐步分解影響力累積的手法,作者嘗試搭建一座橋梁,連接實務中不同微調算法的觀察結果與理論解釋,為理解與優化大型語言模型微調提供科學依據。
核心方法與創新
本文提出了以「影響力累積」(influence accumulation)為核心的學習動態框架,將微調過程拆解為多個訓練步驟,追蹤每一步中某一訓練範例對模型整體輸出分布的影響如何傳播與變化。這種分解方法允許對不同類型的微調策略進行統一解釋,無論是指令微調還是偏好微調。
重要的是,作者透過此分析框架提出了關於微調後「虛構」現象的理論假設。例如,模型會因為在回答問題B時學到了某些詞句或知識,反而在回答問題A時不當地借用這些資訊,導致答案中混入不相關或錯誤的內容。此外,重複簡單詞句的問題也被解釋為學習動態中的「影響擴散」效應,使得某些簡單回答被過度放大。這些解釋能幫助研究者理解模型輸出異常的根源。
另一方面,研究還將框架延伸應用到「離策略直接偏好優化」(off-policy Direct Preference Optimization, DPO)中,指出過度訓練會導致模型對原本目標輸出概率的「擠壓效應」(squeezing effect),使得即使是理想輸出也變得不那麼可能生成。這種現象一直是偏好微調中令人困惑的問題,但作者透過學習動態的視角給出了令人信服的解釋,並指出了採用「在策略」(on-policy)方式及其他變體的優勢來源。
主要實驗結果
作者針對多種微調場景進行實驗,驗證其學習動態框架的有效性。包括在指令微調和偏好微調中追蹤模型參數更新與不同訓練例影響間的關係。實驗結果顯示,逐步分解的影響力分析能精準揭示模型在不同訓練階段對特定輸出的傾向變化,幫助識別錯誤產生的節點與原因。
針對虛構現象,實驗成功地複現了部分模型在回答問題時資訊混用、重複簡單片段的行為,並透過影響力累積的數據支持提出的理論假設。此外,關於DPO的「擠壓效應」,作者實驗證明過度迭代的確會降低理想答案的樣本概率,而框架給出的解釋與現象完全吻合。
最後,基於對學習動態的觀察,作者設計了一種簡單有效的微調改進方法,顯著提升了模型在對齊(alignment)任務上的表現,具備實務應用意義。
對 AI 領域的深遠影響
本文開啟了大型語言模型微調過程中「學習動態」的系統性研究,為解析深度學習模型訓練中的內在因果關係提供了新穎視角。對於長期以來表面現象難以解釋的虛構與偏好微調行為,作者的理論與實驗成果建立了堅實的橋梁,推動了模型行為更加可解釋、可控的研究方向。
不僅如此,這套學習動態框架具有普遍適用性,未來有潛力被用於分析更多類型的微調策略與訓練算法,推動自然語言處理與更廣泛的深度學習領域在模型安全性、可靠性、及公平性上的突破。此外,針對DPO「擠壓效應」的理論澄清,對人類反饋強化學習(RLHF)等重要應用場景提供了寶貴指引,優化微調策略以避免訓練陷入不利狀態。
整體而言,Ren與Sutherland提出的「Learning Dynamics of LLM Finetuning」不僅是對大型語言模型微調行為本質的重大洞察,也是推動未來模型對齊技術及安全協同發展的基石,為AI研究帶來深遠且持續的影響。
論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

沒有留言:
張貼留言