行有餘力則以學文: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

2026年4月15日星期三

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

隨著生成式語言模型（如 GPT 系列）的快速發展，如何讓模型更好地反映使用者的偏好成為當前的核心挑戰之一。許多研究採用強化學習（Reinforcement Learning, RL）架構，尤其是「強化學習與人類反饋」（Reinforcement Learning with Human Feedback, RLHF）技術，使得語言模型能在生成內容時考量使用者偏好，提升對話質量與安全性。例如，OpenAI 的 ChatGPT 背後便融合了 RLHF 技術。然後，RLHF 需要訓練一個獎勵模型（Reward Model, RM）來評估生成文本的好壞，再透過策略優化（Policy Optimization）算法如 Proximal Policy Optimization（PPO）進行調整，整個流程繁瑣且資源密集，也帶來穩定性及收斂性問題。

本篇 NeurIPS 2023 榮獲 Outstanding Paper Runner-Up 的論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》由 Rafailov 等人提出，針對上述挑戰提出一種創新的解決方案——「直接偏好優化」（Direct Preference Optimization，DPO）。DPO 的核心洞見在於：既有的語言模型本身已隱含一個獎勵模型，無需額外訓練與註解大量的回饋標籤。透過 DPO，只要利用已經存在的偏好數據（偏好對），便能直接優化語言模型，使其行為更貼近人類偏好，並且大幅降低了訓練複雜度與運算成本。

研究背景與動機

語言模型的預訓練多依賴大規模文本資料的自監督學習，雖然能產生各類語言任務的合理回應，但這些模型未必能理解「什麼是人類所偏好的回答」。因此，如何有效整合人類偏好來提升模型的效能，成為近年 AI 研究的重要課題。傳統做法如 RLHF 需三階段流程：先訓練獎勵模型，再用 RL 優化策略，最後調整語言模型參數，這不僅複雜且不易調校。

作者觀察到，語言模型在訓練時已隱含一定的偏好結構，尤其是在概率分布中反映文本好壞的資訊。因此，他們提出一種能直接從偏好資料中調整語言模型的框架，省略傳統 RM 與 RL 階段，簡化訓練流程並提升穩定性。

核心方法與創新

Direct Preference Optimization (DPO) 的核心理念是將偏好學習問題轉換為一個類似概率比率的優化問題。具體而言，DPO 採用兩個樣本的偏好對數據：給定兩段文字輸出，模型需判斷哪一段為優。傳統 RLHF 中會先用這些偏好對訓練一個獎勵模型 r(x)，反映輸出 x 的偏好分數，接著用獎勵信號驅動策略更新。

DPO 則跳過中間的獎勵模型訓練，直接定義一個目標函數，以語言模型當前概率分布 p_θ 與一個基準模型 p_ref（如原始預訓練模型）概率之比為基礎。透過最大化偏好數據下的這個比值，DPO 等同於讓語言模型「在保留原始語言能力的前提下」學會偏好特定輸出。換言之，DPO 透過調整模型參數使得對偏好回應的生成概率相對於原模型更大，而不偏離原始語言知識過遠。

數學上，DPO 優化目標可表達為最大化偏好對 (x+, x−) 下的對數概率比：

L(θ) = Σ log σ [ log p_θ(x+) - log p_θ(x−) - log p_ref(x+) + log p_ref(x−) ]

其中 σ 是 sigmoid 函數，x+ 與 x− 分別為偏好對中的優與劣輸出。這個目標從概率論和最大似然角度解析旨在讓模型直接反映偏好差異，無需顯性訓練額外獎勵模型。

這種直接優化帶來的優點包括：

不需額外訓練獎勵模型，節省資源與人力標註成本；
避免 RL 訓練中常見的不穩定與收斂難題；
能無縫使用現成偏好資料，提高迭代效率。

主要實驗結果

論文在多個偏好學習基準上對比 DPO 與 RLHF（以 PPO 實作）、及傳統回歸式獎勵模型訓練方法，顯示出顯著優異表現。具體而言：

性能提升：DPO 在通用的語言生成偏好任務中，能夠超越傳統 RLHF 模型。人類評價顯示，通過 DPO 微調的模型生成內容更符合用戶偏好，對話更自然且符合倫理要求。
穩定性與效率：DPO 減少了 RL 訓練所需的超參數調整，訓練過程更易收斂且波動小，縮短了訓練時間。
通用性：DPO 不僅能夠與大型基礎模型結合，且適用於多種生成任務，如對話、摘要等，展現高度靈活性。

此外，作者針對 DPO 對模型概率分布的影響進行分析，證明其能夠以良好的方式限制模型分布偏移，提高生成語言的可靠性。

對 AI 領域的深遠影響

本論文的貢獻不僅在於提出了一種簡潔、有效、且資源友善的偏好學習框架，更在技術上顛覆了偏好學習必須經過獎勵模型及複雜 RL 調優的常規認知。DPO 展示了純語言模型本身即含有獎勵結構，打開了許多後續研究的可能性，如更輕量的偏好調整方法、更快速的用戶定制模型生成、以及提升AI倫理與安全監控的可行性。

在實務面，DPO 可以大幅降低企業與研發團隊將大型語言模型服務化並融入人類偏好的門檻，促進更廣泛且多元化的應用生態。此外，DPO 有助於推動研究者重新檢視強化學習與偏好學習的本質，激發學界針對模型內隱偏好結構及直接優化策略的深入探討。

總結而言，《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》不僅於技術上提出全新偏好優化視野，也對整個生成式 AI 領域帶來策略性轉型。它既是一種演算法創新，更是語言模型訓練與應用流程更簡潔、高效之未來指標，值得所有語言模型研究者與工程師關注與實驗。

論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290

行有餘力則以學文

2026年4月15日星期三

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年4月15日 星期三

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年4月15日星期三