2026年4月21日 星期二

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

隨著大型語言模型(Large Language Models, LMs)的迅速發展,這些模型在無監督訓練下已經能夠掌握大量世界知識與部分推理能力。然而,這類模型因為訓練過程缺乏直接的人類指導,往往難以精確控制行為與生成內容的品質。為了讓語言模型更符合人類期望,研究界普遍採用「人類反饋強化學習」(Reinforcement Learning from Human Feedback,簡稱 RLHF)來微調模型,以建立與人類偏好一致的模型行為。

傳統 RLHF 流程為兩階段:先訓練一個「獎勵模型」以模擬人類對語言模型生成文本的質量評價,接著以該獎勵模型作為強化學習的回饋信號,調整原本的大型無監督語言模型,使其生成文本在該獎勵函數下達到最大化。雖然 RLHF 在實際應用中已展現強大的效果,例如OpenAI的ChatGPT,但此流程存在數個挑戰,包括獎勵模型訓練的誤差傳遞問題、穩定性不足,以及強化學習本身的訓練複雜度和對超參數敏感等。

研究背景與動機

本文由Rafailov等人發表於 NeurIPS 2023 的論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》試圖破解 RLHF 流程中最繁複且不穩定的訓練環節。作者洞察到,語言模型本身已隱含部分獎勵模型的特性,進一步探討是否存在更簡潔且理論嚴謹的方法,直接利用人類偏好資料訓練語言模型,省卻傳統先訓練獎勵模型再進行強化學習的繁瑣過程。

因此,研究主軸聚焦在:如何從人類偏好資料中直接 透過簡單優化,實現與 RLHF 同樣甚至更優的模型對齊(alignment)表現,並且降低計算需求與訓練難度,使技術更普及且易於部署。

核心方法與創新

本研究提出一種稱為 Direct Preference Optimization(DPO) 的新方法。DPO 創新地從數學建模層面,重新參數化 RLHF 中的獎勵模型,使得人類偏好訓練問題能以封閉形式(closed-form)直接求得最優策略——也就是最佳語言模型生成行為的概率分布,無需顯式訓練一個獎勵模型。

具體來說,傳統 RLHF 通常需要兩步驟:先使用相對偏好標籤訓練一個獎勵函數,然後基於該獎勵函數透過強化學習調整語言模型策略。DPO 則藉由巧妙定義一個基於相對偏好的對數機率比(log probability ratio)作為優化目標,直接用分類損失優化語言模型,使得微調後的模型在生成文本時,自然而然呈現符合人類偏好的行為,而無需複雜的策略搜尋或強化學習演算法。

此方法在算法流程上相當簡潔:只需基於偏好資料執行一個標準的二元分類優化,避免傳統 RLHF 中對於獎勵模型精度及強化學習超參數調整的依賴,提升訓練穩定度與效率。

主要實驗結果

作者在多項任務中驗證 DPO 的效能,包括情感控制、摘要生成及單回合對話系統等。實驗結果顯示,DPO 不僅能超越基於 Proximal Policy Optimization(PPO)的 RLHF 方法在調控生成文本情感方面的表現,更在摘要與對話生成質量上與 RLHF 持平甚至略有提升。

更重要的是,DPO 的訓練過程中不需要進行複雜的抽樣或強化學習的迭代,訓練效率顯著提高,且對於超參數設定的敏感度極低,使得模型微調變得更加穩定及易於操作。這大大降低了將 RLHF 技術推廣到更多應用場景的門檻。

對 AI 領域的深遠影響

DPO 的出現對人機互動以及語言模型的可控性發展具有長遠而重要的意義。首先,它提供了一條更簡單且理論嚴謹的對齊路徑,證明在人類偏好學習中不一定需要複雜的強化學習訓練,而是透過直接的分類優化即可達成高品質模型微調。

其次,DPO 促使語言模型訓練中的「獎勵模型」概念重新被定義——過往獎勵模型被認為是獨立且須先行訓練的模組,DPO 則指出大型語言模型本身即暗含獎勵模型的潛在能力,開啟了探索模型內在結構與訓練策略新方向。

最後,該方法降低了對計算資源的需求和技術門檻,促進了更多中小研究團隊與產業界在使用人類偏好引導語言模型微調的可行性,有望推動更加多元且高質的智能應用出現,尤其在個性化生成、倫理控制及安全審查等領域具備實際價值。

綜言之,Rafailov等人提出的 Direct Preference Optimization 是一種革命性的方法,透過重新詮釋 RLHF 中獎勵模型與策略學習的關係,實現了更簡潔、穩健且強大的語言模型對齊技術。此研究不僅在技術面帶來突破,也為未來人類與機器更有效的協同互動鋪路,值得 AI 研究者與工程師深入研讀與應用。


論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290

沒有留言:

張貼留言