行有餘力則以學文: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

2026年4月3日星期五

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

大型無監督語言模型（Language Models, LM）如 GPT 系列，因其龐大的資料訓練和高度通用的表徵能力，能掌握廣泛的世界知識及一定的推理技巧。然而，要精準控制這些模型的行為，使其輸出符合特定人類偏好或價值觀，仍是一大挑戰。這主要源自於其訓練流程本身完全無監督，缺乏直接對「好回應」的清晰指導。為此，近年研究集中在利用人類回饋來調校模型行為，以實現所謂的「對齊」（alignment）。傳統的標準方法是基於人類回饋的強化學習（Reinforcement Learning from Human Feedback, RLHF），透過標註模型生成輸出的相對偏好資料，再訓練一個獎勵模型（Reward Model, RM）以量化這些人類偏好，接著用強化學習調整語言模型，使其最大化此獎勵函數。然而，RLHF 雖然有效，但在實務上需要複雜且不穩定的訓練流程，包含獎勵模型的擬合、RL 策略的優化，以及避免模型行為發散等問題。

在此背景之下，Rafailov 等人於 NeurIPS 2023 發表了題為「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」的論文，提出了一種新穎且高效的優化框架—直接偏好優化（Direct Preference Optimization, DPO），成功簡化並提升了基於人類偏好的語言模型微調過程。

核心問題與動機

典型的 RLHF 流程分為兩階段：

使用標註的偏好資料訓練一個獎勵模型，此模型輸入語言模型生成的文本，輸出對應的偏好分數。
利用強化學習策略，調整語言模型，使其最大化該獎勵函數的期望值。

然而，這樣做有多項挑戰：

獎勵模型與策略（語言模型）的分離導致訓練流程複雜，且依賴大量超參數調整。
強化學習高變異及不穩定性，增加訓練難度。
演算法通常需要從生成模型中持續採樣，增加計算成本與延長訓練時間。

作者觀察到，其實語言模型內部本身也隱含「獎勵模型」的成分：概率分佈本質上蘊含偏好資訊。基於此觀點，他們提出透過特定的獎勵模型參數化，直接從偏好數據微調語言模型，無須顯性獎勵模型訓練與強化學習優化策略。

Direct Preference Optimization：方法詳述

DPO 的關鍵創新在於推導出一套可直接優化的目標函數，該目標函數建立在對數比率的形式（log ratio form）上，將獎勵模型與策略模型合為一體：

假設存在未調整的基線語言模型 \(p\)，以及希望優化的模型 \( \pi \) 。
透過對偏好對 \((x,y_1,y_2)\)（輸入 x、兩組生成輸出 \(y_1, y_2\) 以及人類偏好標記）建模，DPO 用簡單的分類損失函數，直接最大化 \( \pi \) 相對於基線模型 \(p\) 在喜好偏好的文句上的概率優勢。
DPO 公式的形式使得優化結果即為 RLHF 任務的最優策略解，且不需額外執行蒙地卡羅或采樣估計。

這種方法等同於將語言模型本身視作隱藏的獎勵模型，因此能夠直接用人類偏好數據進行微調，省略了獎勵模型擬合與繁瑣的強化學習調參過程。

實驗驗證與結果

作者在多項自然語言任務上評測 DPO，包括情感控制、摘要生成以及單輪對話等：

情感控制：與 PPO-based RLHF 相比，DPO 能更好地調整文本生成的情感傾向，提升控制精度與穩定性。
摘要與對話品質：DPO 能匹配甚至超越現有最強 RLHF 方法，在生成質量和人類偏好符合度方面表現優異。
訓練穩定性與效率：DPO 不需在線產生樣本、復雜的策略更新或高超參數挑整，訓練時間更短，實現更簡單。

實驗中使用了多種語言模型與人類偏好數據集，展示了方法的可擴展性和普適性。根據作者公開代碼及博文，DPO 能以相對低資源成本達到或優於 RLHF 的效果，降低了人類回饋利用的入門門檻。

對 AI 領域的深遠影響

DPO 在方法論與實務角度均大幅簡化了基於人類偏好的語言模型調整流程，有以下多重意義：

理論新視角：將語言模型表示為「隱式獎勵模型」的觀點，架構了新的分析框架，促使研究者重新檢視語言模型與獎勵模型的關係。
實務導向的優化流程：取消了獎勵模型擬合與 RL 策略優化間的橋接問題，降低工業界在部署可控語言模型時的工程複雜度與維護成本。
擴展至更多應用場景：對話系統、內容生成、個性化助手等領域均可受益於更穩定與高效的偏好優化手段，推動 AI 產品向更高品質、更負責任的方向發展。
推動偏好學習方法革新：期望此研究促使後續工作發展出更多避免 RL 不穩定性的優化策略，促進人類回饋資料的直觀利用。

綜合來說，DPO 是一項重要突破，它以簡化而非複雜化實現了 RLHF 的效果，為大型語言模型的對齊研究提供了嶄新的方法論視角與實用工具。隨著語言模型應用不斷擴展，能夠更直接且高效地整合人類偏好，無疑將成為推動 AI 系統更安全、可靠且具可控性的關鍵技術。

論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290